أوضحت الاختلافات بين مهندسي البيانات وعلماء البيانات: المسؤوليات ، والأدوات ، واللغات ، والتوقعات الوظيفية ، والراتب ، وما إلى ذلك المناقشة حول أدوار علم البيانات ليست جديدة يبدو أن تركيز الشركات المتزايد على اكتساب المواهب في علوم البيانات يسير جنبًا إلى جنب >
مع إنشاء مجموعة جديدة كاملة من البيانات الأدوار العلمية والألقاب.
في الآونة الأخيرة ، كُتب الكثير عن الاختلاف بين أدوار علم البيانات المختلفة ، وبشكل أكثر تحديدًا حول الاختلاف بين علماء البيانات ومهندسي البيانات ربما تأتي زيادة الاهتمام من حقيقة أنه كان هناك بالفعل
في الآونة الأخيرة ، كُتب الكثير عن الاختلاف بين أدوار علم البيانات المختلفة ، وبشكل أكثر تحديدًا حول الاختلاف بين علماء البيانات ومهندسي البيانات ربما تأتي زيادة الاهتمام من حقيقة أنه كان هناك بالفعل
تغيير في المنظور على مر السنين: في حين كان التركيز منذ عامين أكثر على استرداد الرؤى القيمة من البيانات , لأنه في النهاية ، لا يزال مبدأ "Garbage In، Garbage Out" ساريًا: يمكنك بناء أفضل النماذج ، ولكن إذا لم تكن بياناتك نوعية ، فستكون نتائجك ضعيفة.
ظهر دور مهندس البيانات تدريجيًا في دائرة الضوء ستوضح مشاركة المدونة اليوم أهم الاختلافات بين علماء البيانات ومهندسي البيانات مع التركيز على المسؤوليات والأدوات واللغات والبرامج والخلفية التعليمية والرواتب والتوظيف والتوقعات الوظيفية والموارد التي يمكنك استخدامها للبدء
بشكل عام ، الجهود التي سيحتاج الطرفان إلى القيام بها للحصول على البيانات بتنسيق قابل للاستخدام مختلفة إلى حد كبير. يتعامل مهندسو البيانات مع البيانات الأولية التي تحتوي على أخطاء بشرية أو آلات أو أدوات قد لا يتم التحقق من صحة البيانات وقد تحتوي على أكواد خاصة بالنظام
سيحتاج مهندسو البيانات إلى التوصية بطرق لتحسين موثوقية البيانات وكفاءتها وجودتها وتنفيذها في بعض الأحيان. للقيام بذلك ، سيحتاجون إلى استخدام مجموعة متنوعة من اللغات والأدوات لتزاوج الأنظمة معًا أو محاولة البحث عن فرص الحصول على >
بيانات جديدة من أنظمة أخرى بحيث يمكن أن تصبح الرموز الخاصة بالنظام ، على سبيل المثال ، معلومات في مزيد من المعالجة عن طريق علماء البيانات.
ترتبط ارتباطًا وثيقًا بهذين الاثنين بحقيقة أن مهندسي البيانات سيحتاجون إلى التأكد من أن البنية الموجودة تدعم متطلبات علماء البيانات وأصحاب المصلحة والأعمال أخيرًا لتقديم البيانات إلى فريق علوم البيانات سيحتاج فريق هندسة البيانات إلى تطوير عمليات مجموعة البيانات لنمذجة البيانات
بالطبع ، لبناء النماذج ، يحتاجون إلى إجراء أبحاث حول الصناعة والأعمال ، وسيحتاجون إلى الاستفادة من كميات كبيرة من البيانات من مصادر داخلية وخارجية للإجابة على احتياجات العمل.
يتضمن هذا أيضًا في بعض الأحيان استكشاف البيانات وفحصها للعثور على الأنماط المخفية.
يتضمن هذا أيضًا في بعض الأحيان استكشاف البيانات وفحصها للعثور على الأنماط المخفية.
بمجرد قيام علماء البيانات بإجراء التحليلات ، سيحتاجون إلى تقديم قصة واضحة لأصحاب المصلحة الرئيسيين وعندما يتم قبول النتائج ، سيحتاجون إلى التأكد من أن العمل مؤتمت بحيث يمكن تسليم الرؤى إلى أصحاب المصلحة التجاريين على على أساس يومي أو شهري أو سنوي.
من الواضح أن كلا الطرفين بحاجة إلى العمل معًا لجدال البيانات وتقديم رؤى لقرارات العمل الحاسمة هناك تداخل واضح في مجموعات المهارات ، لكن الاثنين أصبحا أكثر تميزًا تدريجيًا في الصناعة:
بينما سيعمل مهندس البيانات مع أنظمة قواعد البيانات ، وواجهة برمجة تطبيقات البيانات والأدوات لأغراض ETL ، وسوف يشارك في نمذجة البيانات وإعداد مستودع البيانات
عالم البيانات إلى معرفة الإحصائيات والرياضيات والتعلم الآلي لبناء نماذج تنبؤي يحتاج عالم البيانات إلى أن يكون على دراية بالحوسبة الموزعة ، حيث سيحتاج إلى الوصول إلى البيانات التي تمت معالجتها بواسطة فريق هندسة البيانات ،
على الرغم من أن الأدوات التي يعتمد عليها كلا الطرفين بشكل كبير على كيفية تصور الدور في سياق الشركة ، فغالبًا ما ترى مهندسي البيانات يعملون باستخدام أدوات مثل SAP و Oracle و Cassandra و MySQL و Redis و Riak و PostgreSQL و MongoDB و neo4j و Hive و Sqoop.
سيستفيد علماء البيانات من لغات مثل SPSSو Rو Pythonو SAS و Stata و Julia لبناء النماذج
الأدوات الأكثر شيوعًا هنا هي بلا شك Python و R عندما تعمل مع Python و R لعلوم البيانات ستلجأ غالبًا إلى حزم مثل ggplot2 لعمل تصورات مذهلة للبيانات في R أو معالجة بيانات Python مكتبة الباندا
الأدوات الأكثر شيوعًا هنا هي بلا شك Python و R عندما تعمل مع Python و R لعلوم البيانات ستلجأ غالبًا إلى حزم مثل ggplot2 لعمل تصورات مذهلة للبيانات في R أو معالجة بيانات Python مكتبة الباندا
بالطبع ، هناك العديد من الحزم الأخرى التي ستكون مفيدة عند العمل في مشاريع علوم البيانات ، مثل Scikit-Learn ، NumPy ، Matplotlib ، Statsmodels ، إلخ.
في الصناعة ، ستجد أيضًا أن SAS و SPSS التجاريين يعملان بشكل جيد ، ولكن أيضًا أدوات أخرى مثل Tableau و Rapidminer و Matlab و Excel و Gephi ستجد طريقها إلى صندوق أدوات عالم البيانات.
ترى مرة أخرى أن أحد الفروق الرئيسية بين مهندسي البيانات وعلماء البيانات ، وهو التركيز على تصور البيانات ورواية القصص ، ينعكس في الأدوات المذكورة.
الأدوات واللغات والبرامج التي يشترك فيها الطرفان ، قد تكون بالفعل ، هي Scala و Java و C #.
الأدوات واللغات والبرامج التي يشترك فيها الطرفان ، قد تكون بالفعل ، هي Scala و Java و C #.
هذه الغات ليست شائعة بالضرورة لكل من علماء ومهندسي البيانات:
يمكنك القول إن Scala أكثر شيوعًا لدى مهندسي البيانات لأن التكامل مع Spark مفيد بشكل خاص لإعداد تدفقات ETL كبيرة.
يمكنك القول إن Scala أكثر شيوعًا لدى مهندسي البيانات لأن التكامل مع Spark مفيد بشكل خاص لإعداد تدفقات ETL كبيرة.
ينطبق الأمر نفسه قليلاً على لغة Java: في الوقت الحالي ، تزداد شعبيتها مع علماء البيانات ، ولكن بشكل عام ، لا يتم استخدامها على نطاق واسع على أساس يومي من قبل المتخصصين ولكن ، بشكل عام ، سترى هذه اللغات تظهر في الوظائف الشاغرة لكلا الدورين.
يمكن قول الشيء نفسه أيضًا عن الأدوات التي يمكن أن يشترك فيها الطرفان ، مثل Hadoop و Storm و Spark بالطبع ، يجب النظر إلى المقارنة بين الأدوات واللغات والبرامج في السياق المحدد الذي تعمل فيه وكيف تفسر أدوار علم البيانات المعنية ؛
يمكن أن يكمن علم البيانات وهندسة البيانات معًا بشكل وثيق في بعض الحالات المحددة ، حيث يكون التمييز بين فرق علم البيانات وهندسة البيانات صغيرًا جدًا في بعض الأحيان ، يتم دمج الفرق. سواء كانت هذه فكرة رائعة أم لا ، فهذا مادة كافية لمناقشة أخرى لا تدخل في نطاق مدونة اليوم.
والإحصاء وبحوث العمليات غالبًا ما يكون لديهم فطنة تجارية أكثر قليلاً من مهندسي البيانات غالبًا ما ترى أن مهندسي البيانات يأتون أيضًا من خلفيات هندسية ، وغالبًا ما يكون لديهم بعض التعليم السابق في هندسة الكمبيوتر
ومع ذلك ، كل هذا لا يعني على الإطلاق أنك لن تجد مهندسي بيانات جمعوا المعرفة في العمليات والفطنة التجارية من الدراسات السابقة.
عليك أن تدرك أن صناعة علم البيانات بشكل عام تتكون من محترفين ينتمون إلى جميع أنواع الخلفيات المختلفة: ليس من غير المألوف أن يجد الفيزيائيون أو علماء الأحياء أو علماء الأرصاد طريقهم إلى علم البيانات
قام آخرون بالتبديل الوظيفي إلى علم البيانات وجاءوا من تطوير الويب وإدارة قواعد البيانات وما إلى ذلك.
الشركات التي ترغب في توظيف مهندسي بيانات في الوقت الحالي هي PlayStation و The New York Times و Bloomberg و Verizon ولكن في الماضي ،
كانت أيضًا شركات مثل عينت Spotify و Facebook و Amazon مهندسي بيانات. من ناحية أخرى ، فإن علماء البيانات مطلوبون حاليًا في شركات مثل Dropbox و Microsoft و Deloitte و Walmart.
بالإضافة إلى زيادة الاهتمام بقضايا إدارة البيانات تبحث الشركات عن حلول أرخص ومرنة وقابلة للتطوير لتخزين وإدارة بياناته
يريدون نقل بياناتهم إلى السحابة وللقيام بذلك يحتاجون إلى بناء "بحيرات بيانات" كمكمل لمخازن البيانات الموجودة لديهم بالفعل أو كبديل لمتجر البيانات التشغيليةODS
يريدون نقل بياناتهم إلى السحابة وللقيام بذلك يحتاجون إلى بناء "بحيرات بيانات" كمكمل لمخازن البيانات الموجودة لديهم بالفعل أو كبديل لمتجر البيانات التشغيليةODS
ستحتاج تدفقات البيانات إلى إعادة توجيهها واستبدالها في السنوات القادمة ، ونتيجة لذلك ، زاد التركيز على الوظائف الشاغرة وعددها لتوظيف مهندسي البيانات تدريجياً على مر السنين.
كان دور عالم البيانات مطلوبًا منذ بداية الضجيج ، ولكن في الوقت الحاضر ، تتطلع الشركات إلى تكوين فرق علوم البيانات بدلاً من توظيف علماء بيانات أحادي القرن يمتلكون مهارات الاتصال ، الإبداع ، والذكاء ، والفضول ، والخبرة الفنية ، وما إلى ذلك.
بالنسبة لشركات التوظيف ، من الصعب العثور على أشخاص يجسدون جميع الصفات التي تبحث عنها الشركات ويتجاوز الطلب العرض بشكل واضح. يمكنك المجادلة بأن "فقاعة عالم البيانات" قد انفجرت. أو ربما يستمر في الانفجار في المستقبل.
سيظل هناك شيء واحد خلال كل هذا: الطلب على الخبراء الذين لديهم شغف بموضوعات علوم البيانات سيكون دائمًا موجودًا. يعد البحث عن عمل لهؤلاء الخبراء إيجابيًا للغاية: وفقًا لماكينزي ،
قد تواجه الولايات المتحدة نقصًا يتراوح بين 140 ألفًا و 190 ألف شخص يتمتعون بمهارات تحليلية عميقة و 1.5 مليون مدير ومحلل لديهم معرفة كيفية استخدام تحليل البيانات (الكبيرة) من أجل اتخاذ قرارات فعالة في 2018 وما بعدها.
البدء في هندسة البيانات وعلوم البيانات :-
كما ترى ، هناك أكثر من أسباب كافية لبدء استخدام البيانات وهذا بالضبط شيء لن يكون مشكلة كبيرة في DataCamp ، يوجد دورات مثالية إذا كنت ترغب في بدء تعلم هندسة البيانات ، على سبيل المثال
كما ترى ، هناك أكثر من أسباب كافية لبدء استخدام البيانات وهذا بالضبط شيء لن يكون مشكلة كبيرة في DataCamp ، يوجد دورات مثالية إذا كنت ترغب في بدء تعلم هندسة البيانات ، على سبيل المثال
هناك تحليل البيانات الاستكشافية ،
learn.datacamp.com
learn.datacamp.com
Loading suggestions...