أصبحت سلسلة Instinct GPU من AMD شائعة في مجتمع الحوسبة والذكاء الاصطناعي. إليكم السبب.
ليس هناك شك في أن NVIDIA تواصل هيمنتها على مساحة الحوسبة المتوازية من خلال سلسلة GPU الشائعة المتنوعة. ولكن مع مسرعات AMD's Instinct AI التي تقوم بتجهيز اثنين من أحدث وأكبر أجهزة الكمبيوتر العملاقة (Frontier و El Capitan) ودعم المجتمع المتزايد لمنصة ROCm مفتوحة المصدر ، ربما وجدت NVIDIA أكبر منافس لها حتى الآن.
إذن ما هي مسرعات AMD Instinct AI بالضبط؟ ما الذي يجعلها قوية ، وكيف تقارن بوحدات معالجة الرسوميات Tensor من NVIDIA؟
ما هو معالج AMD Instinct؟
معالجات AMD Instinct هي أجهزة على مستوى المؤسسات تُستخدم للحوسبة عالية الأداء (HPC) والمعالجة المسرعة بالذكاء الاصطناعي. على عكس وحدات معالجة الرسومات العادية ، على مستوى المستهلك ، فإن وحدات معالجة الرسومات Instinct مخصصة للتعامل بشكل أفضل مع تعلم الذكاء الاصطناعي والمهام الأخرى عالية الأداء من خلال ابتكارات البرامج والأجهزة.
تم استخدام سلسلة Instinct من AMD لتشغيل أول كمبيوتر عملاق لكسر حاجز Exascale ، حيث كان يعمل عند 1.1 EFLOPs في عمليات مزدوجة الدقة في الثانية. تُستخدم حاليًا أجهزة الكمبيوتر العملاقة التي تستخدم وحدات معالجة الرسومات الغريزة للبحث في علاجات السرطان والطاقة المستدامة وتغير المناخ.
كيف تسرع المعالجات الغريزة AI و HPC
ل أقوى الخوادم وأجهزة الكمبيوتر العملاقة في العالم لتحقيق معالجة على مستوى Exascale ، كان لابد من تجهيز مسرعات AMD Instinct بالعديد من التحسينات والابتكارات التكنولوجية.
دعونا نناقش بعض التقنيات الجديدة والمحدثة المستخدمة في وحدات معالجة الرسومات AMD Instinct.
1. حساب الحمض النووي (CDNA)
استخدمت مسرعات AMD Instinct الحديثة (بدءًا من MI100) بنية CDNA الخاصة بالشركة.
تركز CDNA بشكل أساسي على ميزات مثل المعالجة المتوازية ، والتسلسل الهرمي للذاكرة ، وأداء الحساب المحسّن من خلال تقنية Matrix Core الخاصة بهم. حتى HPC و AI أو التعلم الآلي الذي يتم تشغيله على خوادم فردية يمكن دعمه بواسطة CDNA ، بالإضافة إلى أجهزة كمبيوتر Exascale الضخمة.
تعمل تقنية Matrix Core من AMD على تسريع تعلم الذكاء الاصطناعي من خلال دعم العمليات المختلطة الدقة. تسمح القدرة على الحساب بدقة مختلفة لوحدات معالجة الرسومات الغريزة بحساب عمليات المصفوفة بكفاءة بناءً على مستوى الدقة المطلوبة.
تتضمن تنسيقات دقة الحساب الأكثر شيوعًا FP64 و FP32 و FP16 و BF16 و INT8. يشير FP إلى Floating Point و BF لـ Brain Floating Point و INT لـ Integer. كلما زاد الرقم المقابل للتنسيق ، زادت دقة الحساب. يُعرف التشغيل عند 64 بت بالدقة المزدوجة. مع 32 بت ، تكون الدقة أحادية ، و 16 بت نصف الدقة ، وما إلى ذلك.
نظرًا لأن جزءًا كبيرًا من تدريب نماذج التعلم العميق لا يتطلب الكثير من الدقة ، فلديها القدرة على حساب المصفوفة العمليات بنصف الدقة أو حتى ربع الدقة للاستدلال يقلل بشكل كبير من عبء العمل ، وبالتالي تسريع الذكاء الاصطناعي تعلُّم.
2. ذاكرة النطاق الترددي العالي (HBM)
يأتي كل مسرّع AMD Instinct AI مع ما يصل إلى 880 Matrix Cores. مع معالجات AMD's Matrix Core القادرة على إجراء 383 TFLOPs من العمليات الحسابية نصف الدقيقة ، من الضروري وجود ذاكرة فائقة السرعة. تأتي أحدث عروض Instinct من AMD مزودة بذاكرة عرض النطاق الترددي العالي (HBM) بدلاً من ذاكرة DDR4 أو DDR5 RAM المعتادة.
على عكس الذاكرة التقليدية ، يستخدم HBM ما يعرف بالبنية المكدسة ثلاثية الأبعاد. يشير هذا النوع من الهندسة المعمارية إلى نهج التصميم حيث يتم تكديس قوالب DRAM رأسياً فوق بعضها البعض. يتيح ذلك تكديس القوالب على كل من المحور الرأسي والأفقي ، ومن هنا جاء مصطلح التراص ثلاثي الأبعاد.
باستخدام تقنية التراص ثلاثية الأبعاد هذه ، يمكن أن تتمتع HBM بسعات ذاكرة فعلية تصل إلى بضع مئات من الجيجابايت لكل وحدة ، في حين أن DRR5 يمكنه فقط القيام بما يصل إلى عشرات الجيجابايت لكل وحدة. بصرف النظر عن السعة ، من المعروف أيضًا أن HBMs تتمتع بأداء أعلى من حيث معدل النقل وكفاءة طاقة أفضل من ذاكرة DDR العادية.
3. نسيج إنفينيتي
من الابتكارات الأخرى المضمنة في وحدات معالجة الرسومات Instinct هي تقنية Infinity Fabric من AMD. إن Infinity Fabric هو نوع من أنظمة الترابط التي تربط وحدات المعالجة المركزية ووحدات معالجة الرسومات بطريقة ديناميكية ذكية. هذا يسمح للمكونات بالتواصل بكفاءة مع بعضها البعض.
باستخدام Infinity Fabric ، بدلاً من توصيل المكونات بحافلة عادية ، يتم الآن توصيل المكونات في شبكة تشبه الشبكة حيث يمكن أن يصل عرض النطاق الترددي إلى عدة مئات من الجيجابايت في الثانية.
بصرف النظر عن الوصلة الشبيهة بالشبكة ، تستخدم Infinity Fabric أيضًا مستشعرات مدمجة في كل قالب بشكل ديناميكي التحكم في التردد ، ومعدلات نقل البيانات ، والسلوكيات التكيفية الأخرى ، وتحسين الأداء والتقليل وقت الإستجابة.
4. منصة تطوير ROCm
تعد CUDA (بنية الجهاز الموحد للحوسبة) من NVIDIA منصة التطوير الأكثر استخدامًا لتدريب نماذج الذكاء الاصطناعي. تكمن مشكلة CUDA في أنها تعمل فقط مع وحدات معالجة الرسومات NVIDIA. هذا هو أحد الأسباب الرئيسية التي تجعل NVIDIA تمتلك الغالبية العظمى من حصص السوق لمسرعات HPC و AI GPU.
مع رغبة AMD في الحصول على جزء أكبر من سوق HPC و AI ، كان عليهم تطوير منصتهم الخاصة ، ROCm (Radeon Open Compute). ROCm هي منصة برمجية مفتوحة المصدر تسمح باستخدام Instinct GPU كمسرعات للذكاء الاصطناعي.
على الرغم من أنها ليست بالضرورة جزءًا من أجهزة Instinct ، إلا أن ROCm أساسية عندما يتعلق الأمر ببقاء خط Instinct لوحدات معالجة الرسومات. مع ROCm والمطورين و يحصل الباحثون على أدوات ROCm والمترجم وبرامج تشغيل kernel ومجموعة كاملة من المكتبات والوصول إلى أطر عمل مثل TensorFlow و PyTorch لتطويرها باستخدام يفضل لغة برمجة AI.
كيف تقارن مسرعات الذكاء الاصطناعي الغريزة بمسرعات Radeon GPU AI؟
تقدم AMD تشكيلة Instinct الخاصة بوحدات معالجة الرسومات للمؤسسات ووحدات معالجة الرسومات Radeon للمستهلكين المنتظمين. كما تمت مناقشته سابقًا ، يستخدم Instinct GPU بنية AMD's CDNA و HBM و Infinity Fabric الربط البيني. على العكس من ذلك ، يستخدم Radeon بنية AMD's RDNA وذاكرة DDR6 و Infinity Cache.
على الرغم من أن سلسلة Radeon من مسرعات الذكاء الاصطناعي أقل قدرة ، إلا أنها لا تزال تحزم لكمة واحدة أو اثنتين من مراكز تسريع الذكاء الاصطناعي لكل وحدة حسابية. الأخيرة وحدة معالجة رسومات Radeon RX7900 XT يحتوي على نواتين تسريع AI لكل وحدة حسابية ، مما يسمح بـ 103 TFLOPs من ذروة نصف الدقة و 52 TFLOPs من ذروة الدقة الفردية.
بينما تعد سلسلة Instinct من وحدات معالجة الرسومات أكثر ملاءمة لـ LLMs و HPC ، يمكن استخدام مسرعات Radeon AI لضبط النماذج المدربة مسبقًا والاستنتاج والمهام التي تتطلب رسومات مكثفة.
AMD Instinct مقابل. نفيديا موتر
وفقا ل مسح TrendForce، تمتلك NVIDA 80٪ من حصة السوق لوحدات معالجة الرسومات الخاصة بالخوادم ، بينما تمتلك AMD 20٪ فقط. هذا النجاح الساحق من NVIDIA يرجع إلى أنها شركة متخصصة في تصميم وتجميع وحدة معالجة الرسومات. يتيح لهم ذلك تصميم وحدات معالجة رسومات أفضل أداءً لا مثيل لها في العروض الأخرى.
دعونا نقارن AMD's Instinct MI205X و NVIDIA's H100SXM5 باستخدام مواصفات من موقع AMD الرسمي و ورقة بيانات NVIDIA الخاصة:
طراز وحدة معالجة الرسومات |
FP64 (TFLOPs) |
FP32 (TFLOPs) |
FP16 (TFLOPs) |
INT8 (TFLOPs) |
---|---|---|---|---|
AMD Instinct MI250X |
30.0 |
60.0 |
1000 |
2000 |
نفيديا H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
كما ترون في الجدول ، أداء MI250X من AMD أفضل من حيث الدقة المزدوجة ونصف الدقة الحسابات ، في حين أن H100SXMS من NVIDIA أفضل بكثير من حيث نصف الدقة وربع الدقة المصفوفة العمليات الحسابية. هذا يجعل MI250X من AMD أكثر ملاءمة لـ HPC بينما H100SXMS من NVIDIA مع التعلم والاستنتاج بالذكاء الاصطناعي.
مستقبل معالجات AMD الغريزية
على الرغم من أن أحدث عروض AMD ، MI250X ، مصمم لـ HPC ، فإن MI300 القادم هو أكثر توجهاً نحو التدريب على الذكاء الاصطناعي. تم الإعلان عن مسرع الذكاء الاصطناعي هذا ليكون APU ، حيث يجمع بين وحدة معالجة الرسومات ووحدة المعالجة المركزية في حزمة واحدة. يسمح هذا لجهاز MI300 باستخدام بنية CNDA3 Unified Memory APU ، حيث ستستخدم وحدة معالجة الرسومات (GPU) ووحدة المعالجة المركزية (CPU) ذاكرة واحدة فقط ، مما يزيد من الكفاءة ويقلل السعر.
على الرغم من أن AMD لن تتنافس مع NVIDIA في سوق مسرع الذكاء الاصطناعي اليوم ، بمجرد إطلاق MI300 وتصبح ROCm مصقولة ، قد تكون سلسلة Instinct من AMD جيدة بما يكفي لانتزاع جزء كبير من سوق مسرعات الذكاء الاصطناعي نفيديا.