ما مدى بساطة علم البيانات؟
في بعض الأحيان عندما تسمع علماء البيانات يطلقون عشرات الخوارزميات أثناء مناقشة تجاربهم أو الدخول في تفاصيل استخدام Tensorflow ، فقد تعتقد أنه لا توجد طريقة يمكن لأي شخص عادي إتقان علوم البيانات
في بعض الأحيان عندما تسمع علماء البيانات يطلقون عشرات الخوارزميات أثناء مناقشة تجاربهم أو الدخول في تفاصيل استخدام Tensorflow ، فقد تعتقد أنه لا توجد طريقة يمكن لأي شخص عادي إتقان علوم البيانات
تبدو البيانات الضخمة وكأنها لغز آخر للكون سيُغلق في برج عالي مع حفنة من الكيميائيين والسحرة في الوقت الحاضر في الوقت نفسه ، تسمع عن الضرورة الملحة لتصبح مدفوعًا بالبيانات من كل مكان.
الحيلة هي أننا اعتدنا على امتلاك بيانات محدودة ومنظمة بشكل جيد الآن مع الإنترنت العالمي نحن نسبح في تدفقات لا تنتهي من البيانات المهيكلة وغير المهيكلة وشبه المنظمة إنه يمنحنا مزيدًا من القوة لفهم العمليات الصناعية أو التجاريةأو الاجتماعية ولكنه في الوقت نفسه يتطلب أدوات وتقنيات
علم البيانات هو مجرد امتداد للرياضيات في القرن الحادي والعشرين كان الناس يفعلونه لقرون في جوهرها ، إنها نفس مهارة استخدام المعلومات المتاحة لاكتساب البصيرة وتحسين العمليات سواء كان جدول بيانات Excel صغيرًا أو 100 مليون سجل في قاعدة بيانات ،
علم البيانات هو مزيج مطور حديثًا من خوارزميات التعلم الآلي والإحصاءات وذكاء الأعمال والبرمجة يساعدنا هذا المزيج في الكشف عن الأنماط المخفية من البيانات الأولية ، والتي بدورها توفر رؤى حول عمليات الأعمال والتصنيع.
ذكاء الأعمال
عندما ننظر أولاً إلى علوم البيانات وذكاء الأعمال ، نرى التشابه: كلاهما يركز على “البيانات” لتقديم نتائج إيجابية ، وكلاهما يقدم أنظمة موثوقة لدعم القرار الفرق هو أنه بينما يعمل ذكاء الأعمال مع البيانات الثابتة والمنظمة ،
عندما ننظر أولاً إلى علوم البيانات وذكاء الأعمال ، نرى التشابه: كلاهما يركز على “البيانات” لتقديم نتائج إيجابية ، وكلاهما يقدم أنظمة موثوقة لدعم القرار الفرق هو أنه بينما يعمل ذكاء الأعمال مع البيانات الثابتة والمنظمة ،
يمكن لـ Data Science التعامل مع البيانات عالية السرعة والمعقدة والمتعددة الهياكل من مجموعة متنوعة من مصادر البيانات من المنظور العملي يساعد ذكاء الأعمال في تفسير البيانات السابقة لإعداد التقارير أو التحليلات الوصفية وعلوم البيانات التي تحلل البيانات السابقة لعمل تنبؤات مستقبلية
بصرف النظر عن النظريات ، لبدء مشروع بسيط في علم البيانات ، لا تحتاج إلى أن تكون محلل أعمال خبيرًا ما تحتاجه هو أن يكون لديك أفكار واضحة للنقاط التالية:
1- لديك سؤال أو شيء يثير فضولك
2- البحث عن البيانات ذات الصلة الموجودة في مجال اهتمامك وجمعها وقد تجيب على سؤالك
1- لديك سؤال أو شيء يثير فضولك
2- البحث عن البيانات ذات الصلة الموجودة في مجال اهتمامك وجمعها وقد تجيب على سؤالك
3- تحليل بياناتك باستخدام أدوات مختارة
4- انظر إلى تحليلك وحاول تفسير النتائج
في بداية رحلتك قد يكون فضولك وحسك السليم كافيين من وجهة نظر ذكاء الأعمال من المحتمل أن يكون هناك محللون أعمال منفصلون للقيام بذلك من المهم أن يكون لديك على الأقل رؤية لمهام واستراتيجيات ذكاء الأعمال
4- انظر إلى تحليلك وحاول تفسير النتائج
في بداية رحلتك قد يكون فضولك وحسك السليم كافيين من وجهة نظر ذكاء الأعمال من المحتمل أن يكون هناك محللون أعمال منفصلون للقيام بذلك من المهم أن يكون لديك على الأقل رؤية لمهام واستراتيجيات ذكاء الأعمال
مصادر لتعلم ذكاء الأعمال
نوصيك بإلقاء نظرة على الكتب التمهيدية التالية لتشعر بمزيد من الثقة في التحليلات:
مقالة ثاقبة تعطي نظرة عامة على المفاهيم الأساسية في ذكاء الأعمال
datapine.com
دورة عبر الإنترنت للمبتدئين.
udemy.com
نوصيك بإلقاء نظرة على الكتب التمهيدية التالية لتشعر بمزيد من الثقة في التحليلات:
مقالة ثاقبة تعطي نظرة عامة على المفاهيم الأساسية في ذكاء الأعمال
datapine.com
دورة عبر الإنترنت للمبتدئين.
udemy.com
والتي تسمح لنا بعمل تنبؤات كل من الإحصاء والاحتمال مجالان منفصلان ومعقدان للرياضيات ومع ذلك ، بصفتك عالم بيانات مبتدئًا ، يمكنك البدء بخمسة مفاهيم إحصائية أساسية:
١- الميزات الإحصائية مثل التحيز والتباين والمتوسط والوسيط والنسب المئوية والعديد من الميزات الأخرى هي أول تقنية إحصائية يمكنك تطبيقها عند استكشاف مجموعة بيانات من السهل فهمها وتنفيذها في الكود حتى على مستوى المبتدئين.
٢- تمثل التوزيعات الاحتمالية
احتمالات جميع القيم الممكنة في التجربة الأكثر شيوعًا في علم البيانات هو التوزيع الموحد الذي يهتم بالأحداث التي من المحتمل أن تحدث بشكل متساوٍ أو التوزيع الطبيعي أو توزيع بواسون حيث تتجمع معظم الملاحظات حول الذروة المركزية (الوسط)
احتمالات جميع القيم الممكنة في التجربة الأكثر شيوعًا في علم البيانات هو التوزيع الموحد الذي يهتم بالأحداث التي من المحتمل أن تحدث بشكل متساوٍ أو التوزيع الطبيعي أو توزيع بواسون حيث تتجمع معظم الملاحظات حول الذروة المركزية (الوسط)
٣- Over and Under Sampling
التي تساعد على موازنة مجموعات البيانات إذا كانت فئة الأغلبية ممثلة تمثيلا زائدا ، فإن اختزال العينة يساعد في تحديد بعض البيانات منها لموازنتها مع فئة الأقلية التي تمتلكها عندما تكون البيانات غير كافية فإن الإفراط في أخذ العينات يكرر قيم فئة الأقلية
التي تساعد على موازنة مجموعات البيانات إذا كانت فئة الأغلبية ممثلة تمثيلا زائدا ، فإن اختزال العينة يساعد في تحديد بعض البيانات منها لموازنتها مع فئة الأقلية التي تمتلكها عندما تكون البيانات غير كافية فإن الإفراط في أخذ العينات يكرر قيم فئة الأقلية
٤- تخفيض الأبعاد التقنية الأكثر شيوعًا المستخدمة لتقليل الأبعاد هي PCA ، والتي تقوم بشكل أساسي بإنشاء تمثيلات متجهية للميزات التي توضح مدى أهميتها بالنسبة للمخرجات ، أي ارتباطها.
٥- إحصائيات بايزي Bayesian Statistics أخيرًا ، تعد إحصائيات Bayesian طريقة لتطبيق الاحتمالية على المشكلات الإحصائية يزودنا بأدوات رياضية لتحديث معتقداتنا حول الأحداث العشوائية في ضوء رؤية بيانات أو أدلة جديدة حول تلك الأحداث.
مصادر التعلم للإحصاء والإحتمالات
لقد اخترنا عددًا قليلاً فقط من الكتب والدورات التدريبية الموجهة نحو الممارسة ويمكن أن تساعدك على الشعور بمذاق المفاهيم الإحصائية من البداية
مقدمة في الإحصاء بكلمات بسيطة
amazon.com
دورة تمهيدية عبر الإنترنت
khanacademy.org
لقد اخترنا عددًا قليلاً فقط من الكتب والدورات التدريبية الموجهة نحو الممارسة ويمكن أن تساعدك على الشعور بمذاق المفاهيم الإحصائية من البداية
مقدمة في الإحصاء بكلمات بسيطة
amazon.com
دورة تمهيدية عبر الإنترنت
khanacademy.org
البرمجة
يعد علم البيانات مجالًا مثيرًا للعمل فيه ، حيث يجمع بين المهارات الإحصائية والكمية المتقدمة والقدرة على البرمجة في العالم الحقيقي اعتمادًا على خلفيتك ، لك الحرية في اختيار لغة برمجة حسب رغبتك الأكثر شيوعًا في مجتمع علوم البيانات هي R و Python و SQL.
يعد علم البيانات مجالًا مثيرًا للعمل فيه ، حيث يجمع بين المهارات الإحصائية والكمية المتقدمة والقدرة على البرمجة في العالم الحقيقي اعتمادًا على خلفيتك ، لك الحرية في اختيار لغة برمجة حسب رغبتك الأكثر شيوعًا في مجتمع علوم البيانات هي R و Python و SQL.
R هي لغة قوية مصممة خصيصًا لاحتياجات علوم البيانات إنها تتفوق في مجموعة كبيرة ومتنوعة من التطبيقات الإحصائية وتطبيقات تصور البيانات ، وكونها مفتوحة المصدر لديها مجتمع نشط من المساهمين في الواقع ، يستخدم 43 بالمائة من لحل المشكلات الإحصائية
بايثون هي لغة أخرى شائعة في علوم البيانات. 40٪ من المشاركين الذين شملهم الاستطلاع من قبل O’Reilly يستخدمون Python كلغة برمجتهم الرئيسية نظرًا لتعدد استخداماتها ، يمكنك استخدام Python لجميع خطوات تحليل البيانات تقريبًا يتيح لك إنشاء مجموعات بيانات ،
ويمكنك العثور حرفيًا على أي نوع من مجموعات البيانات التي تحتاجها على Google. تعتبر Python مثالية للمبتدئين وسهلة التعلم ، ولا تزال مثيرة لخبراء علوم البيانات والتعلم الآلي مع مكتبات أكثر تعقيدًا مثل Tensorflow من Google.
تعد SQL (لغة الاستعلام المهيكلة) أكثر فائدة كلغة معالجة بيانات منها كأداة تحليلية متقدمة يمكن أن تساعدك تكنولوجيا المعلومات في تنفيذ عمليات مثل إضافة وحذف واستخراج البيانات من قاعدة بيانات وتنفيذ وظائف تحليلية وتحويل هياكل قاعدة البيانات
على الرغم من أن NoSQL و Hadoop أصبحا مكونًا كبيرًا في Data Science ، إلا أنه لا يزال من المتوقع أن يتمكن عالم البيانات من كتابة وتنفيذ استعلامات معقدة في SQL.
مصادر التعلم للبرمجة في علم البيانات
هناك الكثير من الموارد لأي لغة برمجة ولكل مستوى من الكفاءة نقترح زيارة DataCamp لاستكشاف مهارات البرمجة الأساسية اللازمة لعلوم البيانات
datacamp.com
هناك الكثير من الموارد لأي لغة برمجة ولكل مستوى من الكفاءة نقترح زيارة DataCamp لاستكشاف مهارات البرمجة الأساسية اللازمة لعلوم البيانات
datacamp.com
إذا كنت تشعر براحة أكبر مع الكتب ، فإن المجموعة الهائلة من كتب البرمجة المجانية من O’Reilly ستساعدك على اختيار اللغة التي تريد إتقانها
oreilly.com
oreilly.com
فإن Data Science تتضمن العمل مع كميات كبيرة من مجموعات البيانات التي تتطلب إتقان تقنيات التعلم الآلي ، مثل التعلم الآلي الخاضع للإشراف ، وأشجار القرار ، والانحدار اللوجستي ، وما إلى ذلك.
ستساعدك هذه المهارات في حل مشكلات علوم البيانات المختلفة التي تستند إلى تنبؤات النتائج التنظيمية الرئيسية على مستوى المبتدئين ، لا يتطلب التعلم الآلي معرفة كبيرة بالرياضيات أو البرمجة ، فقط الاهتمام والتحفيز
الشيء الأساسي الذي يجب أن تعرفه عن تعلم الآلة هو أنه في جوهره تكمن واحدة من الفئات الرئيسية الثلاث للخوارزميات:
التعلم الخاضع للإشراف
والتعلم غير الخاضع للإشراف
والتعلم المعزز.
التعلم الخاضع للإشراف
والتعلم غير الخاضع للإشراف
والتعلم المعزز.
مع وضع هذه الأساليب الواسعة في الاعتبار ، يكون لديك العمود الفقري لتحليل بياناتك واستكشاف خوارزميات وتقنيات محددة تناسبك بشكل أفضل موارد على غرار البرمجة ، هناك العديد من الكتب والدورات التدريبية في التعلم الآلي هنا اثنان منهم فقط:
هو مورد كلاسيكي موصى به لجميع الطلاب الذين يرغبون في إتقان تعلم الآلة والتعلم العميق.
deeplearningbook.org
كورس المدرب Andrew Ng يقودك مطلقا عبر الخوارزميات الأكثر شيوعًا في ML
coursera.org
deeplearningbook.org
كورس المدرب Andrew Ng يقودك مطلقا عبر الخوارزميات الأكثر شيوعًا في ML
coursera.org
ما المهارات التي يجب أن يمتلكها عالم البيانات؟
أنت الآن تعرف المتطلبات الأساسية لعلوم البيانات هل يجعلك عالم بيانات جيد؟
على الرغم من عدم وجود إجابة صحيحة ، إلا أن هناك عدة أمور يجب مراعاتها:
أنت الآن تعرف المتطلبات الأساسية لعلوم البيانات هل يجعلك عالم بيانات جيد؟
على الرغم من عدم وجود إجابة صحيحة ، إلا أن هناك عدة أمور يجب مراعاتها:
العقلية التحليلية:
مطلب عام لأي شخص يعمل بالبيانات ومع ذلك ، إذا كان الفطرة السليمة كافية على مستوى الدخول ، فيجب أن يكون تفكيرك التحليلي مدعومًا بخلفية إحصائية ومعرفة بهياكل البيانات وخوارزميات التعلم الآلي.
مطلب عام لأي شخص يعمل بالبيانات ومع ذلك ، إذا كان الفطرة السليمة كافية على مستوى الدخول ، فيجب أن يكون تفكيرك التحليلي مدعومًا بخلفية إحصائية ومعرفة بهياكل البيانات وخوارزميات التعلم الآلي.
التركيز على حل المشكلات:
عندما تتقن تقنية جديدة ، يكون من المغري استخدامها في كل مكان ، ومع ذلك ، في حين أنه من المهم معرفة الاتجاهات والأدوات الحديثة ، فإن هدف Data Science هو حل مشكلات محددة عن طريق استخراج المعرفة من البيانات يفهم عالم البيانات الجيد المشكلة أولاً ،
عندما تتقن تقنية جديدة ، يكون من المغري استخدامها في كل مكان ، ومع ذلك ، في حين أنه من المهم معرفة الاتجاهات والأدوات الحديثة ، فإن هدف Data Science هو حل مشكلات محددة عن طريق استخراج المعرفة من البيانات يفهم عالم البيانات الجيد المشكلة أولاً ،
ثم يحدد متطلبات حل المشكلة ، وبعد ذلك فقط يقرر أي الأدوات والتقنيات هي الأنسب للمهمة لا تنسَ أن الأدوات الرائعة التي تستخدمها لن تنجذب أبدًا إلى أصحاب المصلحة ، بل فقط من خلال فعالية الحل الذي تقدمه.
معرفة المجال:
يحتاج علماء البيانات إلى فهم مشكلة العمل واختيار النموذج المناسب للمشكلة يجب أن يكونوا قادرين على تفسير نتائج نماذجهم والتكرار بسرعة للوصول إلى النموذج النهائي إنهم بحاجة إلى الاهتمام بالتفاصيل.
يحتاج علماء البيانات إلى فهم مشكلة العمل واختيار النموذج المناسب للمشكلة يجب أن يكونوا قادرين على تفسير نتائج نماذجهم والتكرار بسرعة للوصول إلى النموذج النهائي إنهم بحاجة إلى الاهتمام بالتفاصيل.
مهارات الاتصال:
هناك الكثير من الاتصالات التي تدخل في فهم المشكلة وتقديم ملاحظات مستمرة بلغة بسيطة لأصحاب المصلحة لكن هذا مجرد سطح لأهمية الاتصال – العنصر الأكثر أهمية في هذا هو طرح الأسئلة الصحيحة بالإضافة إلى ذلك ، يجب أن يكون علماء البيانات قادرين على توثيق نهجهم بوضوح
هناك الكثير من الاتصالات التي تدخل في فهم المشكلة وتقديم ملاحظات مستمرة بلغة بسيطة لأصحاب المصلحة لكن هذا مجرد سطح لأهمية الاتصال – العنصر الأكثر أهمية في هذا هو طرح الأسئلة الصحيحة بالإضافة إلى ذلك ، يجب أن يكون علماء البيانات قادرين على توثيق نهجهم بوضوح
مصدر المقال
kdnuggets.com
kdnuggets.com
Loading suggestions...