حمود الدوسري
حمود الدوسري

@Dr_Hmood

22 تغريدة 39 قراءة May 07, 2020
التزاوج بين الإحصاءوالحاسب أوجدمايعرف اليوم بعلم البيانات،أسفل هذه التغريدةسأشرح بعض دوال الإحصاءمع مقارنة الطريقةالإحصائيةللتنبؤوطريقة الML
مثال: لنفترض أن لدينا درجات 11 طالب دخلوا أختبار قياس شهر أبريل وكانت درجاتهم كالتالي:(62 ، 68 ، 65 ، 70 ، 71 ، 63 ، 66، 65، 69، 65 ،70)
الدالة الأولى: المتوسط (Mean) واحياناً يطلق عليها Average يتم حسابه بقسمة مجموع الاعداد على عددها (متوسط درجات الطلاب : 734/11 = 66.72)
المتوسط سهل القياس ، وممثل شامل للعينة ولكنه حساس للقيم المتطرفة (على سبيل المثال لو حصل طالب إضافي على 98 سيكون المتوسط : 823/12 = 69.33)
الدالةالثانية:الوسيط(Median)ويتم حسابه بترتيب الاعدادمن الاقل إلى الاعلى ومن ثم إختيارالعدد الذي بالوسط(ينصف سلسلةالاعدادالى نصفين متساويين)
الوسيط سهل الفهم وسهل الحساب ولايتأثر بالقيم المتطرفة ولكنه حساس لعددالقيم،لأنه يقوم بترتيبها(يستغرق وقت طويل لحساب الوسيط للاعداد الكثيرة)
الدالة الثالثة: الإنحراف المعياري(Standard Deviation)ويقيس مدى إنتشار الأرقام(بعدها عن المتوسط)في المثال الذي معنا الإنحراف المعياري= 3.036
الإنحراف المعياري (Standard Deviation) قياس جيد لإنتشار العينة ولا يتأثر بالقيم المتطرفة ولكنه صعب القياس والفهم مقارنة بالمتوسط والوسيط
تعتبر الثلاث قياسات(Mean , Median , Standard Deviation) خصائص لمجموعة الأعداد،وبالإمكان المقارنةبين مجموعتين من الأعداد بإستخدام هذه الخصائص
لنفترض أن لدينا مجموعة ثانية من الطلاب عددهم 11 اختبروا قياس في شهر مايو ، ونريد معرفة أي المجموعتين أفضل ، الصورة توضح أن مجموعة مايو أفضل
لمعرفةجدوى إستخدام الإنحراف المعياري،لنفترض أن لدينامجموعة ثالثةاختبرواقياس في جون،الصورةتوضح أن مجموعة مايوهم الأفضل رغم التساوي في المتوسط
لنفترض أن لدينا طالب سيدخل أختبارقياس،وطُلب منا التنبؤبالدرجةالتي سيحصل عليه،يمثل المتوسط أفضل تنبؤوذلك لتقليله نسبةالخطأ (Prediction error)
الدالة الرابعة:الإرتباط(Correlation)ويقيس مدى إرتباط قيم مجموعتين مع بعضهاالبعض،يأخذ ثلاث قيم:إيجابية تزدادمعاً،0:لاتتأثر ببعض،سلبيةعكس بعض
لنفترض الآن بالإضافة إلى درجات قياس لدينا درجات الطلاب في الثانوية
السؤال هل هناك إرتباط(علاقة) بين ماحصله الطالب في الثانوي ودرجته في قياس؟
طريقةحساب الإرتباط تتم عن طريق معادلةمعينة،نستطيع إستخدام برامج خاصةلحسابهامثل دالةCORREL في برنامج Excel(مرفق مجموعةمن الأمثلةعلى الإرتباط)
أحمد ينوي دخول أختبار قياس وحاصل على 98 في الثانوي، وعلى أفتراض توفر درجات الثانوي مع قياس ،
هل نستطيع التنبؤ بدرجته في قياس بشكل أكثر دقة؟
سنستخدم طريقتين للتنبؤ بالدرجة المتوقعة لـ (أحمد) لو دخل اختبار قياس:
1- إحصائية بإستخدام دالة FORECAST في Excel
2- خوارزمية KNN وتعتبر ML
دالة FORECAST:تقوم ببناء model الإنحدار الخطي (Linear Regression) لأفضل تناسب وذلك باستخدام بيانات الثانوي للتنبؤ بدرجة قياس(النتيجة= 70.67)
خوارزمية KNN من خوارزميات التنبؤ في الـMachine Learning وتهدف إلى إستغلال التشابه والتوقع بناءً على أقرب جيران للهدف (K تمثل عدد الجيران)
في مثالنا الهدف هو أحمد وK ممكن يأخذ قيمة 1 (أفرب جار) أو 11 (العينة كلها) أو رقم بينهما ، لنفترض أن k=3 يعني نختار أقرب ثلاث جيران لأحمد
لتحديد الجيران نحسب المسافة بين درجة أحمد في الثانوي (98) ودرجات الطلاب الآخرين ، أقرب ثلاث جيران هم من حصلوا في الثانوي على (96،97،99)
بعد تحديد أقرب 3 جيران ، تقوم خوارزمية KNN بأخذ متوسط درجاتهم في قياس ، لتصبح النتيجة (الدرجة = 70.33) ، السؤال الآن: أي القياسين أكثر دقة؟

جاري تحميل الاقتراحات...