MapReduce هو مفهوم برمجة أساسي يجب أن تتقنه لتصبح مهندس بيانات محترفًا. يوفر حلولاً لأنظمة إدارة ملفات البيانات الضخمة الموزعة. ومن ثم ، فإن فهم الخلفية النظرية لـ MapReduce سيجعل تعلم التقنية نفسها أمرًا سهلاً بالنسبة لك.
ولكن ما هو MapReduce ، وكيف يعمل في أنظمة الملفات الموزعة؟ ستجد في هذا المنشور.
ما هو MapReduce؟
MapReduce هو نموذج هندسة بيانات مطبق على البرامج أو التطبيقات التي تعالج منطق البيانات الضخمة ضمن مجموعات متوازية من الخوادم أو العقد. يوزع منطق المعالجة عبر العديد من عقد البيانات ويجمع النتائج في خادم العميل.
يضمن MapReduce أن تكون المعالجة سريعة وفعالة للذاكرة وموثوقة ، بغض النظر عن حجم البيانات.
يعد نظام ملفات Hadoop (HDFS) ونظام ملفات Google (GFS) و Apache Kafka و GlusterFS والمزيد أمثلة على أنظمة ملفات البيانات الضخمة الموزعة التي تستخدم خوارزمية MapReduce.
ما هو نظام الملفات الموزعة؟
نظام الملفات الموزعة (DFS) هو طريقة للتخزين في الحوسبة تتضمن تقسيم ملفات البيانات الكبيرة إلى أجزاء أصغر وتوزيعها على عدة خوادم داخل النظام. يسمح للعملاء من مصادر مختلفة بكتابة وقراءة البيانات ومشاركة وتشغيل منطق قابل للبرمجة على البيانات - مباشرة من أي مكان.
يتكون نظام الملفات الموزع عادةً من الخادم الأساسي (يُسمى أيضًا NameNode في Hadoop) ، مجموعات متوازية ، والعديد من العقد أو الخوادم التي تحتوي على قطع بيانات مكررة ، كل ذلك في البيانات المركز. ومع ذلك ، فإن كل مجموعة داخل نظام الملفات الموزعة تحتوي على مئات إلى آلاف من هذه العقد.
يكتشف الخادم الأساسي تلقائيًا التغييرات داخل المجموعات. لذلك يمكن تعيين الأدوار وفقًا لذلك لكل عقدة.
عندما يتلقى الخادم الأساسي ملف بيانات ، فإنه يرسله إلى الكتل داخل DFS. تقوم هذه المجموعات بتقسيم البيانات وتوزيعها في كل عقدة بداخلها. ثم تقوم كل عقدة بتكرار البيانات في ما يسمى كتل البيانات لتشكيل سلسلة. في هذه المرحلة ، تصبح كل عقدة خادمًا متقطعًا.
متعلق ب:ما هي مراكز البيانات ولماذا هي مهمة؟
بالإضافة إلى إدارة الوصول إلى البيانات ، يحتفظ الخادم الأساسي بتعليقات توضيحية للبيانات الوصفية في كل ملف. بهذه الطريقة ، تعرف العقدة التي تتعامل مع الملف في كل مجموعة.
كيف يعمل MapReduce في أنظمة الملفات الموزعة؟
كما ذكرنا سابقًا ، تتوفر البيانات الضخمة في العديد من الخوادم المقطوعة في DFS. تتمثل إحدى طرق تنفيذ المنطق القابل للبرمجة على ملفات البيانات هذه في تجميعها في ملف واحد. يمكنك بعد ذلك سحبها إلى خادم واحد ، والذي يتعامل الآن مع المنطق.
في حين أن هذه طريقة تقليدية للاستعلام عن البيانات ، فإن المشكلة هي أن البيانات تصبح كاملة مرة أخرى داخل الخادم الفردي. لذلك لا يزال يتعين على خادم واحد إدارة المنطق على عدة بيتابايت من البيانات في وقت واحد. لسوء الحظ ، كانت هذه هي المشكلة التي كان النظام ينوي حلها في البداية. لذلك فهي ليست أفضل ممارسة ، بعد كل شيء.
متعلق ب:كيفية الاستعلام عن جداول قاعدة بيانات متعددة في وقت واحد باستخدام عمليات الانضمام إلى SQL
علاوة على ذلك ، فإن مثل هذا التجميع في خادم واحد يشكل العديد من مخاطر الأداء. قد تتراوح هذه من تعطل الخادم ، وضعف كفاءة الحساب ، وزمن انتقال مرتفع ، واستهلاك كبير للذاكرة ، ونقاط ضعف إلى المزيد.
ولكن هناك طريقة أخرى لتشغيل المنطق القابل للبرمجة وهي ترك البيانات في أجزاء داخل كل خادم موزع. ثم قم بحقن الوظيفة المنطقية في كل خادم. هذا يعني أن كل خادم جزء داخل مجموعة يتعامل الآن مع حساباته. يعني استخدام هذا الأسلوب أنه ليست هناك حاجة لتجميع البيانات أو سحبها إلى خادم واحد.
أن هناك مفهوم MapReduce في نظام ملفات البيانات الموزعة. يضمن أن خادمًا واحدًا لا يحتاج إلى سحب البيانات من المصدر. بدلاً من ذلك ، فإنه يشتت وظيفة المعالجة (MapReduce) إلى عدة عقد مقطوعة منفصلة المجموعات ، بحيث تتعامل كل عقدة داخل كل مجموعة مع المنطق بشكل فردي دون زيادة التحميل على ملف الخادم.
وبالتالي ، فإن العديد من الخوادم تتعامل مع المنطق على أجزاء من البيانات بشكل متزامن. يؤدي توزيع العمالة بين الخوادم إلى الأداء الأمثل والأمان العالي ، من بين إيجابيات أخرى.
كيف تتم معالجة نتيجة MapReduce في DFS؟
إليك كيفية عمل معالجة MapReduce بالكامل في DFS:
- يتلقى الخادم الأساسي استعلامًا عن البيانات الضخمة (دالة MapReduce) من العميل.
- ثم يرسل هذا إلى كل عنقود لنشره عبر كل عقدة بداخله.
- تعالج كل عقدة دالة MapReduce وتجمع نتيجتها.
- يقوم خادم آخر بجمع النتائج من كل عقدة وإرسالها مرة أخرى إلى الخادم الأساسي.
- ثم يرسل الخادم الأساسي النتيجة كاستجابة للعميل.
وبالتالي ، فإن المهمة الوحيدة للخادم الأساسي هي إرسال نتيجة محسوبة بسهولة إلى العميل ، والاستماع إلى التغييرات ، وإدارة الوصول إلى البيانات. لا يقوم بأي حسابات. هذا هو السبب في أن معظم تطبيقات الحوسبة السحابية سريعة بشكل مثير للإعجاب على الرغم من كمية البيانات التي تعالجها.
ما هي الخريطة بالضبط وما هو التخفيض في MapReduce؟
يستخدم MapReduce منطقين برمجة لمعالجة البيانات الضخمة في نظام إدارة الملفات الموزعة (DFS). هذه خريطة وتقليل الوظيفة.
ال خريطة تقوم الوظيفة بوظيفة المعالجة على كل عقد من عقد البيانات في كل مجموعة من نظام الملفات الموزع. ال خفض تقوم الدالة بعد ذلك بتجميع النتائج التي يتم إرجاعها بواسطة كل خادم مقطع وتمريرها إلى خادم آخر داخل DFS لتجميع النتائج. يرسل الخادم المستلم هذا الحساب إلى الخادم الأساسي ، والذي يقوم بترحيل القيمة التي تم إرجاعها إلى الخادم من جانب العميل.
ماذا يحدث عندما ينخفض الخادم المقسم؟
قد تواجه الخوادم داخل نظام الملفات الموزع (DFS) بعض أوقات التعطل في بعض الأحيان. قد تعتقد أن هذا سيؤدي إلى كسر النظام بأكمله ، لكنه لا يفعل ذلك.
هناك نظام في الحوسبة يمنع مثل هذا الانهيار الوشيك. يطلق عليه تحمل الخطأ.
متعلق ب:ما هي الحوسبة السحابية؟ كيف تعمل تقنية السحابة؟
ومن ثم ، حتى عندما ينقطع الخادم أثناء معالجة البيانات ، فإن التسامح مع الخطأ يضمن أن الخادم الأساسي يكتشفه على الفور. ونظرًا لوجود نسخة طبق الأصل من مجموعات البيانات عبر العقد ، فإن الخادم الأساسي ينقل على الفور مهمة المعالجة إلى خادم آخر. بهذه الطريقة ، لا يؤثر تعطل الخادم داخل DFS على معالجة البيانات.
MapReduce يسهل معالجة البيانات الكبيرة
MapReduce هو نموذج أساسي يجعل الحوسبة سهلة في أنظمة الملفات الموزعة. نظرًا لأنه يسمح للعديد من العقد بإجراء عملية حسابية بشكل متزامن ، فهي طريقة سريعة يستخدمها العديد من عمالقة التكنولوجيا لحل العديد من المشكلات المصاحبة لتحليل البيانات الضخمة.
تعد Google و Amazon و IBM وغيرها أمثلة على الشركات التي تستخدم هذا المفهوم. Google ، على سبيل المثال ، يطبق مفهوم MapReduce لجلب نتائج الاستعلام أثناء بحث Google.
تدعم البيانات الضخمة العديد من الصناعات ولها تأثير على حياتنا كلها. لكن هل هو أكثر خطورة أم مفيد؟
اقرأ التالي
- برمجة
- برمجة
- البيانات الكبيرة
- تحليل البيانات
إن Idowu شغوف بأي شيء يتعلق بالتقنيات الذكية والإنتاجية. في أوقات فراغه ، يلعب بالبرمجة ويتحول إلى رقعة الشطرنج عندما يشعر بالملل ، لكنه أيضًا يحب الابتعاد عن الروتين بين الحين والآخر. يحفزه شغفه بإظهار طريقة حول التكنولوجيا الحديثة للناس على كتابة المزيد.
اشترك في نشرتنا الإخبارية
انضم إلى النشرة الإخبارية لدينا للحصول على نصائح تقنية ومراجعات وكتب إلكترونية مجانية وصفقات حصرية!
انقر هنا للاشتراك