البيانات هي نفط العصر
للاستفادة من البيانات يجب أن تكون نظيفة!!!
ونظافة البيانات تتبع عدد من التقنيات سوف أذكر (11) منها
للاستفادة من البيانات يجب أن تكون نظيفة!!!
ونظافة البيانات تتبع عدد من التقنيات سوف أذكر (11) منها
▪️Data Filtering تصفية البيانات
هي إزالة البيانات غير الضرورية أو غير الملائمة من مجموعة البيانات لتقليل الضجيج والتركيز على المعلومات الأكثر أهمية.
مثال: لديك بيانات حضور الطلاب لكل حصة دراسية، لكنك تحتاج فقط إلى بيانات الحضور للطلاب الذين لديهم معدل حضور أقل من 75%. يمكنك تصفية البيانات لاستبعاد الطلاب الذين لديهم معدل حضور أعلى
هي إزالة البيانات غير الضرورية أو غير الملائمة من مجموعة البيانات لتقليل الضجيج والتركيز على المعلومات الأكثر أهمية.
مثال: لديك بيانات حضور الطلاب لكل حصة دراسية، لكنك تحتاج فقط إلى بيانات الحضور للطلاب الذين لديهم معدل حضور أقل من 75%. يمكنك تصفية البيانات لاستبعاد الطلاب الذين لديهم معدل حضور أعلى
▪️ Data Deduplication إزالة التكرار
تتضمن حذف السجلات المكررة من مجموعة البيانات لضمان أن كل سجل فريد.
مثال: لديك قاعدة بيانات تتضمن أسماء الطلاب وسجلات درجاتهم، وتجد أن بعض الطلاب مدخلين مرتين. يمكن إزالة السجلات المكررة لضمان أن كل طالب له سجل فريد.
تتضمن حذف السجلات المكررة من مجموعة البيانات لضمان أن كل سجل فريد.
مثال: لديك قاعدة بيانات تتضمن أسماء الطلاب وسجلات درجاتهم، وتجد أن بعض الطلاب مدخلين مرتين. يمكن إزالة السجلات المكررة لضمان أن كل طالب له سجل فريد.
▪️ Data Imputation استكمال البيانات
يتضمن استبدال القيم المفقودة أو الفارغة بقيم مقدرة للحفاظ على سلامة البيانات.
مثال: في مجموعة بيانات تتعلق بالطلاب، تفتقد بعض السجلات إلى درجات الاختبارات. يمكنك استكمال البيانات باستخدام المتوسط العام للدرجات أو القيم المقدرة بناءً على أداء الطالب في المواد الأخرى.
يتضمن استبدال القيم المفقودة أو الفارغة بقيم مقدرة للحفاظ على سلامة البيانات.
مثال: في مجموعة بيانات تتعلق بالطلاب، تفتقد بعض السجلات إلى درجات الاختبارات. يمكنك استكمال البيانات باستخدام المتوسط العام للدرجات أو القيم المقدرة بناءً على أداء الطالب في المواد الأخرى.
▪️ Data Standardization توحيد البيانات
أي وضع جميع البيانات في تنسيق مشترك لتسهيل المقارنة والتحليل.
مثال: لديك بيانات من مدارس مختلفة، وكل مدرسة تستخدم تنسيقًا مختلفًا لتواريخ الميلاد (مثلاً، يوم/شهر/سنة مقابل سنة/شهر/يوم). يمكنك توحيد البيانات بحيث تكون جميع تواريخ الميلاد في نفس التنسيق.
أي وضع جميع البيانات في تنسيق مشترك لتسهيل المقارنة والتحليل.
مثال: لديك بيانات من مدارس مختلفة، وكل مدرسة تستخدم تنسيقًا مختلفًا لتواريخ الميلاد (مثلاً، يوم/شهر/سنة مقابل سنة/شهر/يوم). يمكنك توحيد البيانات بحيث تكون جميع تواريخ الميلاد في نفس التنسيق.
▪️ تحويل البيانات Data Transformation
يتضمن تعديل البيانات الموجودة لجعلها أكثر ملاءمة للتحليل أو النمذجة.
مثال: لديك بيانات حول درجات الطلاب في امتحانات نهاية الفصل الدراسي، وتريد تحويل هذه الدرجات إلى نظام تقديرات (مثل A، B، C). يمكنك تحويل الدرجات الرقمية إلى تقديرات حرفية بناءً على نطاق الدرجات.
يتضمن تعديل البيانات الموجودة لجعلها أكثر ملاءمة للتحليل أو النمذجة.
مثال: لديك بيانات حول درجات الطلاب في امتحانات نهاية الفصل الدراسي، وتريد تحويل هذه الدرجات إلى نظام تقديرات (مثل A، B، C). يمكنك تحويل الدرجات الرقمية إلى تقديرات حرفية بناءً على نطاق الدرجات.
▪️ اكتشاف القيم الشاذة Outlier Detection
هو عملية تحديد وإدارة القيم التي تنحرف بشكل كبير عن بقية البيانات، إما بمعالجتها أو إزالتها.
مثال: في مجموعة بيانات تحتوي على درجات الطلاب، تجد أن بعض الدرجات غير معقولة (مثل 105% في امتحان يكون أقصى درجة فيه 100%). يمكنك اكتشاف هذه القيم الشاذة وتصحيحها أو إزالتها.
هو عملية تحديد وإدارة القيم التي تنحرف بشكل كبير عن بقية البيانات، إما بمعالجتها أو إزالتها.
مثال: في مجموعة بيانات تحتوي على درجات الطلاب، تجد أن بعض الدرجات غير معقولة (مثل 105% في امتحان يكون أقصى درجة فيه 100%). يمكنك اكتشاف هذه القيم الشاذة وتصحيحها أو إزالتها.
▪️ التحقق من صحة البيانات Data Validation
يهدف إلى التحقق مما إذا كانت البيانات تتوافق مع القواعد والتقييدات المحددة، وتحديد وتصحيح التناقضات.
مثال: لديك بيانات تتعلق بأرقام هويات الطلاب، وتريد التأكد من أن جميع الأرقام تتبع تنسيقًا معينًا (مثل أن تتكون من 10 أرقام فقط). يمكنك التحقق من صحة البيانات واستبعاد الأرقام التي لا تتوافق مع هذا المعيار.
يهدف إلى التحقق مما إذا كانت البيانات تتوافق مع القواعد والتقييدات المحددة، وتحديد وتصحيح التناقضات.
مثال: لديك بيانات تتعلق بأرقام هويات الطلاب، وتريد التأكد من أن جميع الأرقام تتبع تنسيقًا معينًا (مثل أن تتكون من 10 أرقام فقط). يمكنك التحقق من صحة البيانات واستبعاد الأرقام التي لا تتوافق مع هذا المعيار.
▪️ ترميز البيانات Data Encoding
يتضمن تحويل البيانات الفئوية إلى تنسيق عددي لجعلها متوافقة مع خوارزميات التعلم الآلي.
مثال: لديك بيانات تحتوي على الفئات التعليمية للطلاب (مثل “الصف الأول”، “الصف الثاني”، “الصف الثالث”). يمكنك ترميز هذه الفئات إلى أرقام لتسهيل استخدامها في التحليل الإحصائي (مثل 1 للصف الأول، 2 للصف الثاني، 3 للصف الثالث).
يتضمن تحويل البيانات الفئوية إلى تنسيق عددي لجعلها متوافقة مع خوارزميات التعلم الآلي.
مثال: لديك بيانات تحتوي على الفئات التعليمية للطلاب (مثل “الصف الأول”، “الصف الثاني”، “الصف الثالث”). يمكنك ترميز هذه الفئات إلى أرقام لتسهيل استخدامها في التحليل الإحصائي (مثل 1 للصف الأول، 2 للصف الثاني، 3 للصف الثالث).
▪️ تجميع البيانات Data Aggregation
يتضمن تجميع البيانات حسب الفئة أو الفترة الزمنية أو أي معيار آخر للحصول على إحصائيات ملخصة.
مثال: لديك بيانات درجات الطلاب في اختبارات شهرية، وتريد الحصول على إجمالي الدرجات لكل طالب في نهاية الفصل الدراسي. يمكنك تجميع البيانات حسب الطالب للحصول على الدرجات الكلية.
يتضمن تجميع البيانات حسب الفئة أو الفترة الزمنية أو أي معيار آخر للحصول على إحصائيات ملخصة.
مثال: لديك بيانات درجات الطلاب في اختبارات شهرية، وتريد الحصول على إجمالي الدرجات لكل طالب في نهاية الفصل الدراسي. يمكنك تجميع البيانات حسب الطالب للحصول على الدرجات الكلية.
▪️ أخذ عينات من البيانات Data Sampling
أخذ عينات من البيانات هو عملية اختيار مجموعة فرعية تمثيلية من البيانات لتسريع التحليل مع الحفاظ على سلامة البيانات.
مثال: لديك مجموعة بيانات ضخمة تحتوي على آلاف السجلات للطلاب، وتريد إجراء تحليل استكشافي سريع. يمكنك أخذ عينة عشوائية من 100 سجل فقط لتسريع التحليل.
أخذ عينات من البيانات هو عملية اختيار مجموعة فرعية تمثيلية من البيانات لتسريع التحليل مع الحفاظ على سلامة البيانات.
مثال: لديك مجموعة بيانات ضخمة تحتوي على آلاف السجلات للطلاب، وتريد إجراء تحليل استكشافي سريع. يمكنك أخذ عينة عشوائية من 100 سجل فقط لتسريع التحليل.
▪️ تحليل البيانات Data Profiling
يتضمن التحليل العميق للبيانات لفهم هيكلها وخصائصها وجودتها.
مثال: لديك بيانات حول أداء الطلاب في الاختبارات، وتريد فهم كيفية تأثير الحضور المنتظم على درجات الامتحانات. يمكنك إجراء تحليل بيانات لفهم الأنماط واكتشاف العلاقات بين الحضور والأداء الأكاديمي.
يتضمن التحليل العميق للبيانات لفهم هيكلها وخصائصها وجودتها.
مثال: لديك بيانات حول أداء الطلاب في الاختبارات، وتريد فهم كيفية تأثير الحضور المنتظم على درجات الامتحانات. يمكنك إجراء تحليل بيانات لفهم الأنماط واكتشاف العلاقات بين الحضور والأداء الأكاديمي.
جاري تحميل الاقتراحات...