قطعت وحدات معالجة الرسومات Nvidia شوطًا طويلاً ، ليس فقط من حيث أداء الألعاب ولكن أيضًا في التطبيقات الأخرى ، وخاصة الذكاء الاصطناعي والتعلم الآلي. العاملان الرئيسيان المسؤولان عن أداء وحدة معالجة الرسومات من Nvidia هما نواتا CUDA و Tensor الموجودة في كل وحدة معالجة رسومات Nvidia حديثة يمكنك شراؤها.

ولكن ما الذي تفعله هذه النوى بالضبط ، وإذا تم استخدام كلاهما في تطبيقات الذكاء الاصطناعي والتعلم الآلي ، فكيف يختلفان؟

ما هي نوى CUDA ، وما الغرض منها؟

ترمز CUDA إلى Compute Unified Device Architecture ، والتي لا تفعل الكثير لشرح وجودها في وحدة معالجة الرسومات. تم إدخال هذه النوى في تشكيلة Nvidia GPU في بنية Maxwell لعام 2014 وتخصصت في المعالجة المتوازية.

إنها تشبه إلى حد كبير أنوية وحدة المعالجة المركزية من حيث أدائها ولكنها أفضل في التعامل مع بعض المعالجات المهام ، بما في ذلك تجزئة التشفير ومحركات الفيزياء والمشاريع المتعلقة بعلوم البيانات وحتى الألعاب تطوير.

حقوق الصورة: نفيديا

بينما قمنا بالفعل بتغطية كيف تؤثر نوى CUDA على أداء ألعاب الكمبيوتر، فهي مفيدة بنفس القدر في تحليل الأرقام. في حين أن أقوى وحدات المعالجة المركزية (CPU) تحتوي على نوى مكونة من رقمين ، فإن وحدات معالجة الرسومات Nvidia تأتي مع عدة آلاف من نوى CUDA مما يجعلها أسرع بكثير في أعباء العمل الرقمية. بالإضافة إلى ذلك ، نظرًا لأنهم يقومون بهذه الحسابات بالتوازي ، فإنك تحصل على سرعات أعلى بكثير باستخدام نوى CUDA.

instagram viewer

تعد نوى CUDA أسرع من نوى وحدة المعالجة المركزية العادية عندما يتعلق الأمر بطحن الأرقام ، لكنها لا تزال ليست الحل المثالي. هذا لأنه لم يكن من المفترض أبدًا استخدامها بهذه الطريقة. تم تصميم نوى CUDA خصيصًا للمعالجة الرسومية ولجعل وحدات معالجة الرسومات Nvidia أكثر قدرة على أداء الألعاب.

ما هي نوى الموتر ، وما الغرض منها؟

مع بدء استخدام وحدات معالجة الرسومات للذكاء الاصطناعي وأعباء عمل التعلم الآلي ، قدمت Nvidia نوى Tensor في بنية Volta لوحدات معالجة الرسومات الخاصة بمركز البيانات الخاص بها بدءًا من عام 2017.

ومع ذلك ، فقد استغرق الأمر حتى وصول بنية Nvidia Turing (وحدات معالجة الرسومات RTX 20-Series) لهذه النوى إلى وحدات معالجة الرسومات الاستهلاكية. يتذكر أنه بينما تعتمد بطاقات GTX 16-Series أيضًا على بنية Turing ، إلا أنها لا تتضمن أي تتبع للأشعة أو Tensor النوى.

في حين أن نوى CUDA كانت كافية في أحسن الأحوال لأحمال العمل الحسابية ، زادت نوى Tensor من الرهان بكونها أسرع بشكل ملحوظ. في حين أن نوى CUDA يمكنها إجراء عملية واحدة فقط لكل دورة ساعة ، فإن نوى Tensor يمكنها التعامل مع عمليات متعددة ، مما يمنحها أداءً مذهلاً. بشكل أساسي ، كل ما تفعله نوى Tensor هو زيادة سرعة مضاعفة المصفوفة.

يأتي هذا التعزيز في السرعة الحاسوبية على حساب الدقة ، حيث تكون نوى CUDA أكثر دقة بشكل ملحوظ. ومع ذلك ، عندما يتعلق الأمر بتدريب نماذج التعلم الآلي ، فإن نوى Tensor تكون أكثر فاعلية من حيث السرعة الحسابية والتكلفة الإجمالية ؛ ومن ثم غالبًا ما يتم إهمال الخسارة في الدقة.

كيف تؤثر نوى Tensor و CUDA على أداء وحدة معالجة الرسومات؟

كما يمكنك التخمين على الأرجح الآن ، في حين أن نواتي CUDA و Tensor يمكنهما التعامل مع نفس أحمال العمل ، إلا أنهما كلاهما مركزان متخصصان لعرض الرسومات وأعباء العمل الرقمية ، على التوالي.

هذا يعني أنه بناءً على المستخدم الذي تستهدفه وحدة معالجة رسومات معينة ، سيكون لها عدد مختلف من النوى. على سبيل المثال ، إذا أخذنا في الاعتبار RTX 4090 ، أحدث وأكبر وحدة معالجة رسومات للألعاب من Nvidia تواجه المستهلك ، فستحصل على عدد أكبر بكثير من نوى CUDA من نوى Tensor. 16384 نواة CUDA إلى 512 نواة Tensor ، على وجه التحديد.

بالمقارنة ، تحتوي وحدة معالجة الرسومات Nvidia L40 لمراكز البيانات ، استنادًا إلى نفس بنية Ada Lovelace مثل RTX 4090 ، على 18176 نواة CUDA و 568 نواة Tensor. قد لا يبدو هذا فرقًا كبيرًا ، لكنه يمكن أن يؤثر بشكل كبير على أداء وحدات معالجة الرسومات هذه.

من حيث الأداء النظري ، يحتوي L40 على 90.52 TFlops من أداء FP16 و FP32 بالإضافة إلى 1414 GFlops من أداء FP64. يعد هذا تعزيزًا هائلاً للأداء مقارنةً بأداء RTX 4090's 82.58 TFlops لأداء FP16 و FP32 و 1290 GFlops من أداء FP64.

ما لم تكن على دراية جيدة بأرقام الأداء العددي لوحدة معالجة الرسومات ، فقد لا تعني أرقام أداء الفاصلة العائمة لوحدة معالجة الرسومات من Nvidia الكثير بالنسبة لك. ومع ذلك ، باختصار ، فإنهم يظهرون أن L40 أسرع بكثير من RTX 4090 عندما يتعلق الأمر بالحسابات الرقمية - تلك المطلوبة للذكاء الاصطناعي وأعباء العمل القائمة على التعلم الآلي.

يصبح تحسين الأداء أكثر إثارة للإعجاب عندما تفكر في استهلاك الطاقة لوحدتي معالجة الرسومات. يحتوي RTX 4090 على تصنيف TGP (لا ينبغي الخلط بينه وبين TDP ، هناك فرق بسيط) 450 واط ، بينما تم تصنيف L40 لـ 300 واط فقط.

ستعمل كل من وحدات معالجة الرسومات هذه على تشغيل الألعاب وتدريب نموذج التعلم الآلي الخاص بك على ما يرام. ومع ذلك ، سيكون RTX 4090 أفضل في تشغيل الألعاب ، وسيكون L40 أفضل في تدريب نماذج التعلم الآلي.

CUDA النوى مقابل. نوى الموتر: أيهما أكثر أهمية؟

كلا المركزين لهما نفس القدر من الأهمية ، بغض النظر عما إذا كنت تشتري وحدة معالجة الرسومات الخاصة بك للألعاب أو تضعها في رف مركز البيانات. تستخدم وحدات معالجة الرسومات (GPU) للألعاب التي تواجه المستهلك من Nvidia مجموعة من ميزات AI (أبرزها DLSS) ، ويمكن أن يكون وجود نوى Tensor على اللوحة مفيدًا.

بالنسبة لوحدات معالجة الرسومات في مركز البيانات ، تعمل نواتا CUDA و Tensor جنبًا إلى جنب في معظم الأوقات على أي حال ، لذلك ستحصل على كليهما بغض النظر عن وحدة معالجة الرسومات التي تختارها. بدلاً من التركيز على نوع معين من النواة في وحدة معالجة الرسومات الخاصة بك ، يجب أن تركز أكثر على ما تفعله بطاقة الرسومات ككل ونوع المستخدم المقصود بها.

تتخصص نوى CUDA في التعامل مع أعباء العمل الرسومية ، بينما تتخصص نوى Tensor في الأحمال العددية. إنهم يعملون معًا ويمكن تبديلهم إلى حد ما ، لكنهم يتعاملون مع تخصصاتهم الخاصة ، وهذا هو سبب وجودهم في المقام الأول.

تتخصص وحدات معالجة الرسومات المختلفة في جوانب مختلفة. سوف يسحق RTX 4090 بسهولة أي لعبة ترميها ، في حين أن RTX 4060 يمكنه التعامل مع ألعاب 1080p فقط. إذا كنت لا تمارس الألعاب باستخدام وحدة معالجة الرسومات الخاصة بك وتطلبها فقط لتحطيم الأرقام أو تدريب الشبكات العصبية ، فإن مركز بيانات A-Series GPU مثل A100 أو حتى L40 هو أفضل رهان لك.

نوى GPU الخاصة بك مهمة

سيمنحك المزيد من نوى GPU أداءً عامًا أفضل لأن وحدة معالجة الرسومات لديك ستكون أكثر تنوعًا ولديها موارد مخصصة للتعامل مع المهام المختلفة. ومع ذلك ، فإن الحصول على وحدة معالجة الرسومات (GPU) بأكبر عدد من النوى بشكل أعمى ليس هو القرار الأفضل. توقف لحظة للنظر بعناية في حالة الاستخدام الخاصة بك ، وألق نظرة على إمكانات وحدة معالجة الرسومات ككل ، ثم حدد اختيارك.