من أكثر الأخطاء التي يقع فيها أغلب من يعمل في مجال البيانات وتحليلها عدم التفرقة بين مصطلحي overfitting و underfitting
فما هو تعريف هذة المصطلحات ؟ بل وما هو سبب الوقوع فيها ؟ 🤔
في سلسة تغريدات سأتحدث عن هذا الموضوع.
#data #DataScientist #DataAnalytics
فما هو تعريف هذة المصطلحات ؟ بل وما هو سبب الوقوع فيها ؟ 🤔
في سلسة تغريدات سأتحدث عن هذا الموضوع.
#data #DataScientist #DataAnalytics
ولنبدأ مع overfitting
و يُشار إليه ايضا باسم
التباين العالي ( High Variance )
التعريف:
لنفترض أنك تريد توقع ما اذا كانت الطالبة ستحصل على وظيفة بناء على سيرتها الذاتيه.
و يُشار إليه ايضا باسم
التباين العالي ( High Variance )
التعريف:
لنفترض أنك تريد توقع ما اذا كانت الطالبة ستحصل على وظيفة بناء على سيرتها الذاتيه.
بناء على ذلك قمنا بتدريب نموذج من مجموعة بيانات من الف سيرة ذاتية. عند تشغيل النموذج حصلنا على دقة 99% أمر مذهل. ولكن عندما قمنا بتشغيل النموذج على بيانات جديدة ( test data ) حصلنا على دقة 50% فقط.
السبب في حدوث ال overfitting:
١. زيادة البيانات ( الصفوف أو الأعمدة ) بشكل غير مفيد.
٢. اختيار خوارزمية غير مناسبة.
١. زيادة البيانات ( الصفوف أو الأعمدة ) بشكل غير مفيد.
٢. اختيار خوارزمية غير مناسبة.
الان لنتحدث عن ال underfitting
التعريف:
يقال أن الخوارزمية بها underfitting عندما لا يمكنها التقاط الاتجاه الأساسي للبيانات. (إنها تمامًا مثل محاولة ارتداء البالغ حذاء طفل صغير (عدم ملاءمة)). يؤدي underfitting إلى تدمير دقة نموذج التعلم الآلي.
التعريف:
يقال أن الخوارزمية بها underfitting عندما لا يمكنها التقاط الاتجاه الأساسي للبيانات. (إنها تمامًا مثل محاولة ارتداء البالغ حذاء طفل صغير (عدم ملاءمة)). يؤدي underfitting إلى تدمير دقة نموذج التعلم الآلي.
السبب في حدوث ال underfitting :
١. نقص البيانات (الصفوف أو الأعمدة ).
٢. اختيار خوارزمية غير مناسبة.
١. نقص البيانات (الصفوف أو الأعمدة ).
٢. اختيار خوارزمية غير مناسبة.
Loading suggestions...