حمود الدوسري
حمود الدوسري

@Dr_Hmood

11 تغريدة 113 قراءة Jul 26, 2020
كثيراً ما تصلني رسائل على الخاص تسأل عن
"كيف ابدأ في مجال #علم_البيانات ؟"
هنا رابط لدليل رائع للمبتدئين للتعرف على الخطوات الأولى للدخول في هذا المجال ، سألخص أبرز نقاطه أسفل هذه التغريدة
@viranisharyar13/data-science-for-beginners-a-complete-guide-e1044227fa2a" target="_blank" rel="noopener" onclick="event.stopPropagation()">medium.com
دعونا نتسائل بداية .. ماهو #علم_البيانات (Data Science)؟
علم البيانات مجال متعدد التخصصات (interdisciplinary) يجمع بين "البيانات" و "العلوم" ويهدف إلى إستخراج المعلومات والقصص المخفية في #البيانات_الضخمة وتصويرها (Data Visualization) على شكل جداول ورسوم بيانية يسهل فهمها
في أي مشروع من مشاريع #علم_البيانات هناك خمس عمليات أساسية:
1⃣ جمع البيانات الخام
2⃣ المعالجة المسبقة للبيانات
3⃣ تحليل البيانات
4⃣ نمذجة البيانات
5⃣ تصوير البيانات
1⃣ جمع البيانات الأولية:
البيانات الأولية هي البيانات التي يتم قياسها وجمعها مباشرةً من جهاز معين أو من الأنظمة الإلكترونية ، وكذلك البيانات التي يتم جمعها عن طريق الاستبانات والمقابلات أو حتى البيانات التي يتم سحبها من مواقع الإنترنت
2⃣ المعالجة المسبقة للبيانات وتتضمن:
⬅️تنظيف البيانات (ملء القيم المفقودة، إزالة القيم المتطرفة، إصلاح تناقضات القيم)
⬅️تكامل البيانات بجمعها من أكثر من مصدر وتنظيمها
⬅️تحويل البيانات بالتطبيع والتجميع
⬅️تقليل البيانات، تقليل الحجم
⬅️تمييز البيانات بتحويل الأسمي إلى رقمي أو العكس
3⃣ تحليل البيانات:
هو عملية تطبيق تقنيات إحصائية و / أو حاسوبية بشكل منهجي لوصف وتوضيح وتلخيص وتقييم البيانات
4⃣ نمذجة البيانات:
هو عملية بناء نموذج يعتمد على البيانات ويكون إما نموذج وصفي أو تنبؤي
5⃣ تصوير البيانات:
هو تمثيل المعلومات والقصص المستخرجة من البيانات بشكل رسومي
دعونا نرجع للمربع الأول ونتسائل: كيف نبدأ في تعلم #علم_البيانات ؟
هناك العديد من المنصات المتوفرة على الإنترنت (online) تقدم دروس متنوعة في علم البيانات للمبتدئين والمتقدمين ، وبعض هذه الدروس مجاني (ملاحظة: تُقدم باللغة الإنجليزية)
يجب التأكيد على أنه ليس بالضرورة أن مجال #علم_البيانات مناسب لكل شخص ، وإنما يتطلب توفر بعض المهارات ومعرفة بعض الأدوات التي تُمكن صاحبها من التحليل وبناء النماذج ، ومن أبرز المهارات البرمجة وخصوصاً لغة Python و لغة R
لو تسائل أحدكم على أشهر وأبرز الأدوات التي تُستخدم من قبل العاملين في مجال #علم_البيانات ، لوجد أن Logistic Regression ، Decision Trees ، Random Forest هي الأبرز والأكثر إستخداماً ، ولكم أن تتخيلوا أن فهم هذه الخوارزميات الثلاث واضح و سهل
أخيراً بعد أن تقوم بتقوية نقاط ضعفك من خلال المنصات المذكورة يأتي دور التطبيق ، ولا يوجد أفضل من منصة kaggle.com لتكون نقطة إنطلاقك لممارسة مهاراتك وعرض موهبتك وتعلمك من خلال البيانات التي توفرها المنصة والمسابقات التي تُطلقها

جاري تحميل الاقتراحات...