حمود الدوسري
حمود الدوسري

@Dr_Hmood

8 تغريدة 28 قراءة Dec 25, 2022
في معالجة اللغات الطبيعية (NLP) هناك خطوات رئيسية يجب تطبيقها على النصوص قبل تحليلها ، أشهر هذه الخطوات Stemming و Lemmatization ، في كثير من الأحيان يخلط المبتدئين بين الطريقتين ، على الرغم من وجود أوجه تشابه بينهما إلا أنها مختلفة تمامًا ، سنتحدث عن هذا الموضوع في هذه السلسلة
دفعت التطورات في مجالات #تعلم_الآلة و #الذكاء_الاصطناعي الاهتمام المستمر بمعالجة اللغة الطبيعية وزاد هذا الاهتمام بشكل أكبر ، خاصة بعد أن أصبح بإمكاننا أن نرى كيف يمكن أن تجعل معالجة اللغة الطبيعية حياتنا أسهل من خلال استخدامنا لبعض التطبيقات مثل Alexa و Siri والمترجمات الآلية
يحتاج أي تطبيق معالجة لغة طبيعية إعادة صياغة الكلمات وتحويلها الى بيانات ذات معنى، كما أن الحاجة إلى التمييز بين الكلمات الأصلية ومشتقاتها في اللغات ضروره ولكنها عملية معقده في طبيعتها ، كما في الشكل المرفق عن اللغة العربية
الاشتقاق (stemming) و اللممات (Lemmatization) أول خطوتين في بناء أي مشروع لمعالجة اللغات الطبيعية وتمثل المفاهيم الأساسية للمجال المراد تحليله (ثقافي– سياسي – طبي - .....)، وتهدف إلى إعادة الكلمات ومشتقاتها إلى مصدرها المجرد من الزيادات اللغوية وصياغة قاعدة مشتركة لتلك الكلمات
الاشتقاق stemming عبارة عن مجموعة من الخوارزميات تعمل لقص نهاية وبداية الكلمة للوصول إلى المصدر الخاص بها ، وتقوم بذلك من خلال النظر في البدايات واللواحق الشائعة للغة التي يتم تحليلها، ويمكن أن يؤدي اقتطاع الكلمات إلى صيغة المصدر الصحيح (جذر الكلمة)
ولكن هذا ليس هو الحال دائماً!
جاءت خوارزميات الـ lemmatization للتغلب على عيوب الاشتقاق وتعمل على تغذية بعض المعرفة اللغوية والقواعد للخوارزمية لاتخاذ قرارات أفضل عند استخراج صيغة المصدر للكلمة (جذر الكلمة)، ولكي تعمل الخوارزمية بشكل صحيح نحتاج غالباً إلى قاموس للغة لنتمكن من تصنيف كل كلمة بشكل صحيح
بشكل عام خوارزميات الـ lemmatization مكملة ومصححة لخوارزميات الاشتقاق ، الهدف دائماً استخراج المعنى من خلال إرجاع الكلمة إلى أصلها بإزالة الزوائد عن الكلمة (stemming) وبالرجوع إلى قواعد اللغة وتصاريفها (lemmatization)
هنا بعض المصادر المفيدة لتوضيح الفرق:
kdnuggets.com
وللغة العربية هنا ورقة بحثية تتكلم عن المصطلحين:
researchgate.net

جاري تحميل الاقتراحات...