Talal Almutiri
Talal Almutiri

@TALALSQL

25 تغريدة 61 قراءة Aug 21, 2022
تقييم الانحدار الخطي البسيط
يوجد عدة مقاييس (كما في الصور) لكن تركيزنا بيكون على التباين Variation و أنواعه
وكذلك Coefficient of determination R2 وماهو الفرق بينه وبين correlation coefficient أو R
هذه من الأسس في تقييم الانحدار.فهمها يساعد في فهم المقاييس الأخرى
#علم_البيانات
هذا الموضوع لتغطية النقطة الثانية في موضوع
الانحدار الخطي على هذا الرابط 👇
التباين والانحراف المعياري
عند تطبيق الانحدار الخطي في الاكسل أو SPSS أو غيرها. تظهر جداول كما في الصورة
تركيزنا على الجدول الأول
حتى نُقيِّم نموذج الانحدار نحتاج نعرف ال Actual value وتسمى أيضا observed
و القيمة المُتوقعة predicted أو estimated
في الصورة مثال للتنبؤ بسعر المنزل y بناءً على عدد الغرف x
ال spelling price هو ال actual value بمعنى القيمة الحقيقية المرصودة في بيانات بيع المنازل
عند تطبيق نموذج الانحدار يكون الجدول بهذا الشكل تقريباً
ال predicted وهي القيمة التي تنبأ بها النموذج
و ال residuals البواقي أو القيمة المتبقية
وهي الفرق بين القيمة الحقيقة والمتوقعة وهي مدخلنا للتباين
التباين variation بشكل عام يعكس مدى انتشار مجموعة من القيم حول القيمة المتوقعة أو متوسطها.
وهنا التباين وأنواعه تعطينا صورة عن مقدار الخطأ أو البواقي في النموذج. وهو الفرق بين القيم الفعلية والقيم المتوقعة. وكذلك مدى الفرق بين القيم المتوقعة ومتوسط قيم y
وهو ٣ أنواع
⁃Unexplained variation
⁃Explained variation
⁃Total variation
التباين وأنواعه تجيب على هذا النوع من الأسئلة.
ما مقدار التذبذب أو التغير في y الذي يمكن وصفه من تغير وتذبذب x 👀؟
بمعنى سعر المنزل كم يؤثر عليه عدد الغرف. قد يؤثر بنسبة ٤٠٪ و ٦٠٪ على عوامل أخرى
قبل شرح الأنواع الثلاثة نحتاج لتوضيح بعض الرموز لفهم المعادلات
ال y وهي القيمة الفعلية أو الملاحظة observed
الy وعليها علامة - تنطق y bar وهي متوسط قيم y الفعلية
ال y وعليها علامة ^ تنطق y hat وهي قيمة y التي تنبأ بها النموذج predicted or estimated
ال Unexplained variation
يسمى Sum of Squares Error أو SSE ويعبر عن مجموع تربيع البواقي residuals كما في المعادلة في الصورة
ال SSE هو الفرق بين قيمة y الفعلية والقيمة المتوقعة
كلما كانت قيمة SSE أقل كان النموذج أفضل.
ويعبر SSE عن نسبة التباين الغير موصوف أو غير مبرر من خلال النموذج وإذا كان رقم كبير تحتاج تضيف متغيرات غير عدد الغرف نحتاج مثلاً عمر المنزل
بمعنى أن عدد الغرف فقط غير كافي للتنبؤ بسعر المنزل
على نفس مثال سعر المنزل يكون ال SSE هو مجموع العمود الأخير ويكون تقريبا
5,828,571,429
ال Explained variation
ويسمى Sum of Squares Regression أو SSR
وهو مجموع تربيع الفرق بين قيمة y المتوقعة و متوسط قيم y
وهو يعبر عن مدى التغير أو التباين التي وصفها المتغير x في التنبؤ ب y.
ال SSR مهم في توضيح التباين أو مدى التغير بين y و x كما سأوضح ذلك في ال R2
ال Total variation
ويسمى Total Sum of Squares أو SST
وهو مجموع تربيع الفرق بين القيمة الفعلية ومتوسط قيم y
ال SST يعطي الصورة العامة للتباين المُعبر أو الغير مُعبر عنه. كما في الصورة
الآن نستطيع توضيح مقياس تقييم نموذج الانحدار R^2 أو Coefficient of determination
هو جزء من ال Total variation كما في الصورة
ويعبر عن خلاصة التباين ك نسبة مئوية لمدى تفسير أو وصف أو التنبؤ ب y (سعر المنزل)؟من خلال x (عدد الغرف)
أولاً ال R square أو R^2 هو تربيع لمعامل الارتباط correlation coefficient أو r
يعني إذا R يساوي 0.8 تكون قيمة R square تساوي 0.64
نحتاج نفهم معامل الارتباط. هو لقياس مدى علاقة أو ارتباط متغيرين ببعض على شكل trend
بمعنى إذا زاد x يزيد y وتسمى علاقة موجبة (زاد عدد الغرف يزيد سعر المنزل) . أو إذا زاد x نقص y وهي علاقة سلبية (زاد عمر المنزل يقل سعر المنزل)
كما في الصورة
وتكون قيم ال r وتفسيرها كما في الصور
القيم بين -١ و ١
أما قيم ال R square تكون بين ٠ و ١
إذا كانت ١
هذا يعني علاقة خطية ممتازة بين y و x
وتعبر عن أن يمكن التنبؤ بقيمة y من خلال x بنسبة ١٠٠٪
أو بصيغة أخرى ١٠٠٪ من تباين y تم التعبير عنه من خلال تباين x
إذا كان قيمة R square تساوي صفر
يعني عدم وجود علاقة
قيمة y غير متعمدة نهائيا على x
إذا كانت بين صفر و ١
مثلاً 0.30 هذا يعني أن ٣٠٪ من قيمة y يمكن التبنؤ بها من خلال قيمة x والنسبة المتبقية معتمدة على عوامل أخرى (تحتاج زيادة متغيرات للنموذج)
الخلاصة إذا قيمة معامل الارتباط r تساوي 0.8 هذا يعني أن سعر المنزل وعدد الغرف يزيدون مع بعض في علاقة موجبة قوية.
أما R Square تكون 0.64 يعني أن ٦٤٪ من التباين في سعر المنزل يمكن التعبير عنه من خلال تباين عدد الغرف والبقية ٣٦٪ تعتمد على عوامل مثل عمر المنزل و مساحة المنزل الخ.
ال multiple r في الصورة هو معامل الارتباط correlation coefficient
ال Adjusted R Square يؤخذ في الاعتبار إذا كان لدينا أكثر من متغير مستقل (عدد الغرف - مساحة المنزل - عمر المنزل)
وهو تقريبا بنفس فكرة R square
Standard Error يخبرنا بمقدار خطأ التنبؤ أو residuals.وتكون القيمة من نفس وحدة المتغير التابع.بمعنى:كم تبعد النقاط على خط الانحدار بنفس فكرة الانحراف المعياري عن المتوسط
حجم الخطأ ١٣٨.٢٥
يبلغ الخطأ المعياري لتقدير انبعاثات ثاني أكسيد الكربون لمنتج GDP حوالي 138.255 مليون طن متري
في الصورة معادلة الخطأ المعياري.
تمت القسمة على n-2 بشكل مختصر السبب لأن عندنا في الانحدار two parameters ال slope و intercept
إذا ساعد الوقت إن شاء الله نتكلم عن درجات الحرية Degrees of freedom بشكل أوسع.
أخير مفهوم Cost Function لتقييم وتحسين النموذج. وهي دالة تعمل على قياس مقدار خطأ النموذج.
ويكون تقليل الخطأ minimize عن طريق عدة طرق من أشهرها gradient descent
أيضا تحتاج موضوع مستقل حالياً فقط الفكرة العامة.
حاولت في هذه السلسلة توضيح بعض مقاييس الانحدار ولو بشكل مبسط مثل R square و Standard error
والموضوع القادم إن شاء الله عن ال lasso و ridge

جاري تحميل الاقتراحات...