SE_DatAnalys
SE_DatAnalys

@SDatanalys

9 Tweets 53 reads Nov 08, 2020
من أكثر الأخطاء التي يقع فيها أغلب من يعمل في مجال البيانات وتحليلها عدم التفرقة بين مصطلحي overfitting و underfitting
فما هو تعريف هذة المصطلحات ؟ بل وما هو سبب الوقوع فيها ؟ 🤔
في سلسة تغريدات سأتحدث عن هذا الموضوع.
#data #DataScientist #DataAnalytics
ولنبدأ مع overfitting
و يُشار إليه ايضا باسم
التباين العالي ( High Variance )
التعريف:
لنفترض أنك تريد توقع ما اذا كانت الطالبة ستحصل على وظيفة بناء على سيرتها الذاتيه.
بناء على ذلك قمنا بتدريب نموذج من مجموعة بيانات من الف سيرة ذاتية. عند تشغيل النموذج حصلنا على دقة 99% أمر مذهل. ولكن عندما قمنا بتشغيل النموذج على بيانات جديدة  ( test data ) حصلنا على دقة  50% فقط.
هنا نكون وقعنا فيما يسمى ب overfitting 
يعرف overfitting بأنه النموذج الذي لديه درجة عالية من الدقة في بيانات التدريب ودرجة دقة منخفضة في بيانات الاختبار.
أو يمكننا القول أيضا عندما يأخذ النموذج أو الخوارزمية نمط معين مثل الصورة الموجودة أدناه.
السبب في حدوث ال overfitting:
١. زيادة البيانات ( الصفوف أو الأعمدة ) بشكل غير مفيد.
٢. اختيار خوارزمية غير مناسبة.
الان لنتحدث عن ال underfitting
التعريف:
يقال أن الخوارزمية بها underfitting عندما لا يمكنها التقاط الاتجاه الأساسي للبيانات.  (إنها تمامًا مثل محاولة ارتداء البالغ حذاء طفل صغير (عدم ملاءمة)). يؤدي underfitting إلى تدمير دقة نموذج التعلم الآلي.
وتحدث عادةً عندما يكون لدينا بيانات أقل لبناء نموذج دقيق وأيضًا عندما نحاول بناء نموذج خطي ببيانات غير خطية ( عدم ملاءمة).
السبب في حدوث ال underfitting :
١. نقص البيانات  (الصفوف أو الأعمدة ).
٢. اختيار خوارزمية غير مناسبة.

Loading suggestions...