نظرا للعدد الكبير من الصناعات والمشكلان التي تندرج تحت علم البيانات هناك الكثير من الادوات المختلفة التي تستخدم في الشركان والصناعات لإيجاد حلول ، ومع ذلك هناك بالفعل عملية شائعة تستخدم لإيجاد العديد من الخلول في علم البيانات تعرف هذه العملية بإسم CRISP - DM >>
العملية القياسية عبر الصناعة لاستخراج البيانات Cross industry standard process for data mining
كانت هذه العملية لسنوات طويلة معيار صناعي لتحليل البيانات ولها 6 خطوات رئيسية وهم 👇
1- Business understand
فهم الأعمال
2- Data understand
فهم البيانات
<<
كانت هذه العملية لسنوات طويلة معيار صناعي لتحليل البيانات ولها 6 خطوات رئيسية وهم 👇
1- Business understand
فهم الأعمال
2- Data understand
فهم البيانات
<<
3- Data preparation
تحضير البيانات
4- Modeling
نمذجة البيانات
5- Evaluations
تقييم الأداء والنتائج
6- Deploy
النشر
>>
تحضير البيانات
4- Modeling
نمذجة البيانات
5- Evaluations
تقييم الأداء والنتائج
6- Deploy
النشر
>>
المرحلة الأولي :- فهم الأعمال
business understanding
في هذه الخطوة نحن بحاجة الي فهم الأعمال أولا ، ولكن عالم البيانات اكثر شمولية من عالم الاعمال business فقط ، وبشكل عام في هذه الخطوة علينا ان نفهم المشكلة التي يبحث العميل عن ايجاد حل لها ويمكن ان نلخصها في بعض الأسئلة
business understanding
في هذه الخطوة نحن بحاجة الي فهم الأعمال أولا ، ولكن عالم البيانات اكثر شمولية من عالم الاعمال business فقط ، وبشكل عام في هذه الخطوة علينا ان نفهم المشكلة التي يبحث العميل عن ايجاد حل لها ويمكن ان نلخصها في بعض الأسئلة
هل العميل مهتم باكتساب عملاء جدد ؟
هل العميل مهتم بالتقييم مثلا هل سيتفوق علاج كورونا الجديد علي العلاجات الأخري ؟
هل العميل مهتم بإيجاد طرق افضل للتواصل ؟ او بإيجاد طرق أفضل للسفر والتنقل ؟
هل العميل مهتم بطرق أفضل لحفظ المعلومات ؟
كل هذه الأسئلة تندرج تحت فهم الأعمال
هل العميل مهتم بالتقييم مثلا هل سيتفوق علاج كورونا الجديد علي العلاجات الأخري ؟
هل العميل مهتم بإيجاد طرق افضل للتواصل ؟ او بإيجاد طرق أفضل للسفر والتنقل ؟
هل العميل مهتم بطرق أفضل لحفظ المعلومات ؟
كل هذه الأسئلة تندرج تحت فهم الأعمال
الخطوة الثانية :- فهم البيانات
Data understand
هنا يعني اننا بحاجة الي فهم البيانات اللازمة للإجابة علي الأسئلة ، في بعض الاحيان قد يكون لدينا كم هائل من البيانات للتصرغ في الموقف الذي نحتاج الي البحث فيه للعثور علي افكار ، وفي احيان اخري قد لا يكون لدينا اي بيانات
Data understand
هنا يعني اننا بحاجة الي فهم البيانات اللازمة للإجابة علي الأسئلة ، في بعض الاحيان قد يكون لدينا كم هائل من البيانات للتصرغ في الموقف الذي نحتاج الي البحث فيه للعثور علي افكار ، وفي احيان اخري قد لا يكون لدينا اي بيانات
ونحتاج الي جمع البيانات اللازمة لتزودينا بالإحصاءات التي نحتاجها ، لذلك تميل معظم الشركات الي جمع كل البيانات التي يمكنها اولا حتي تتمكن لاحقا من تحديد البيانات التي يحتاجونها للعثور علي حلول لمشاكلهم
المرحلة الثالثة :- Data prepare
تجهيز وتحضير البيانات
في الغالب هذه العملية تستهلك 80٪ من وقت التحليل لأننا في هذه الخطوة نقوم بعمل تهيئة وتنظيف للبيانات ، وإجراء بعض العمليات علي القيم المفقودة سواء نقوم بحذفها او باستبدالها بالمتوسط الحسابي او الوسيط
تجهيز وتحضير البيانات
في الغالب هذه العملية تستهلك 80٪ من وقت التحليل لأننا في هذه الخطوة نقوم بعمل تهيئة وتنظيف للبيانات ، وإجراء بعض العمليات علي القيم المفقودة سواء نقوم بحذفها او باستبدالها بالمتوسط الحسابي او الوسيط
المرحلة الخامسة :- Data model
نمذجة البيانات
نمذجة البيانات هي الجزء الذي يبدء فيه محلل البيانات بالتعامل مع Machine Learning التعلم الآلي ، عبر بناء نموذج تنبؤ قادر علي التنبؤ مثلا بأسعار المنازل او بالرواتب او حسب نوع المشروع الذي نعمل عليه
نمذجة البيانات
نمذجة البيانات هي الجزء الذي يبدء فيه محلل البيانات بالتعامل مع Machine Learning التعلم الآلي ، عبر بناء نموذج تنبؤ قادر علي التنبؤ مثلا بأسعار المنازل او بالرواتب او حسب نوع المشروع الذي نعمل عليه
تتم عمليات النمذجة عبر بناء متغيرات التنبؤ والإستجابة ، في متغير التنبؤ نضع كل المميزات مثل ، مساحة المنزل ، موقعه ، عدد الغرف ، ونرمز لها بمتغير X ،
وفي متغير الإستجابة نضع الهدف الذي نعمل عليه وهو التنبؤ بالسعر والذي يتمثل في عمود Price بجدول البيانات ونرمز له بالمتغير y
وفي متغير الإستجابة نضع الهدف الذي نعمل عليه وهو التنبؤ بالسعر والذي يتمثل في عمود Price بجدول البيانات ونرمز له بالمتغير y
ثم يقوم محلل البيانات باستخدام إحدي خوارزميات التعلم الآلي Machine Learning
التي تتناسب مع البيانات مثل خوارزمية الإنحدار الخطي Linear Regression
او الإنحدار اللوجستي LogisticRegression
او إحدي خوارزميات التعلم الآلي من مكتبة Scikit learn
#هذه الخطوة الرابعة وليس الخامسة##
التي تتناسب مع البيانات مثل خوارزمية الإنحدار الخطي Linear Regression
او الإنحدار اللوجستي LogisticRegression
او إحدي خوارزميات التعلم الآلي من مكتبة Scikit learn
#هذه الخطوة الرابعة وليس الخامسة##
الخطوة الخامسة :- النتائج والتقييم
Evaluation
الخطوة الخامسة في خطوات التحليل هي عرض النتائج وتقييمها وتشمل كل ما توصلت اليه من عمليات التحليل والنمذجة والإجابات التي حصلت عليها للأسئلة المطروحة ،
Evaluation
الخطوة الخامسة في خطوات التحليل هي عرض النتائج وتقييمها وتشمل كل ما توصلت اليه من عمليات التحليل والنمذجة والإجابات التي حصلت عليها للأسئلة المطروحة ،
الخطوة السادسة :- النشر Deploy
نشر النتائج هي الخطوة الأخيرة في عمليات التحليل وهي الخطوة الأهم لمحلل البيانات وهي التي تحدد وسيلة التواصل بينك وبين العميل ، ليقوم بأخذ القرارات بناء علي النتائج التي توصلت اليها
التواصل هو جزء مهم لعالم البيانات ونشر نتائج التحليل مهم ايضا لك
نشر النتائج هي الخطوة الأخيرة في عمليات التحليل وهي الخطوة الأهم لمحلل البيانات وهي التي تحدد وسيلة التواصل بينك وبين العميل ، ليقوم بأخذ القرارات بناء علي النتائج التي توصلت اليها
التواصل هو جزء مهم لعالم البيانات ونشر نتائج التحليل مهم ايضا لك
هناك ادوات تساعدك علي نشر نتائج تحليلك وتنقسم الي قسمان
1- جزء المطورين والمتخصصين بالمجال وهم الذين يهتمون برؤية ما وراء الكواليس في عمليات التحليل مثل تنظيف البيانات واستخراج النتائج وبناء النماذج لذاك لابد لك من نشر تحليلك علي موقع Github لتصل الي هذا المجتمع من المطورين
1- جزء المطورين والمتخصصين بالمجال وهم الذين يهتمون برؤية ما وراء الكواليس في عمليات التحليل مثل تنظيف البيانات واستخراج النتائج وبناء النماذج لذاك لابد لك من نشر تحليلك علي موقع Github لتصل الي هذا المجتمع من المطورين
2- شبكة kaggle
كاجل هي الشبكة الإجتماعية الخاصة بجوجل في علم البيانات فيها ملايين الخبراء والمتخصصين من المحللين يمكنك نشر Notebook الخاص بالمشروع عليها وسيساعدك افراد اخرون علي تطوير المشروع او تقييمه لأن كل الموحودين عليها خبراء ومختصين
kaggle.com
كاجل هي الشبكة الإجتماعية الخاصة بجوجل في علم البيانات فيها ملايين الخبراء والمتخصصين من المحللين يمكنك نشر Notebook الخاص بالمشروع عليها وسيساعدك افراد اخرون علي تطوير المشروع او تقييمه لأن كل الموحودين عليها خبراء ومختصين
kaggle.com
3- الفئات العامة من الناس التي تريد ان تقرأ النتائج فقط والرسم البياني والإحصاءات التي توصلت اليها بعيدا عن الأكواد وكواليس التحليل وافضل مكان تصل منه الي أكبر كم من هذه الفئات هي شبكة Medium
فهي عبارة عن مجتمع كبير من المهتمين بعالم البرمجة والبيانات
medium.com
فهي عبارة عن مجتمع كبير من المهتمين بعالم البرمجة والبيانات
medium.com
وايضا شبكة medium تمكنك من كسب الأموال خلال نشرك للمواضيع عليها وان شاء الله سأتطرق لهذا الموضوع بالتفصيل
او يمكنك انشاء مدونة ونشر نتائج تحليلك عليها او علي الشبكات الاجتماعية او كما تحب
والآن وصلنا الي نهاية الموضوع ارجو لكم المزيد من الإستفادة حول علم البيانات💛
او يمكنك انشاء مدونة ونشر نتائج تحليلك عليها او علي الشبكات الاجتماعية او كما تحب
والآن وصلنا الي نهاية الموضوع ارجو لكم المزيد من الإستفادة حول علم البيانات💛
Loading suggestions...