Nvidia تكشف عن Blackwell B200 GPU، “أقوى شريحة في العالم” للذكاء الاصطناعي

تكلنوجيا

Nvidia تكشف عن Blackwell B200 GPU، “أقوى شريحة في العالم” للذكاء الاصطناعي


لقد نجحت شريحة H100 AI التي لا بد من اقتنائها من Nvidia شركة تبلغ قيمتها تريليونات الدولارات، والتي قد تكون قيمتها أكثر من ألفابيت وأمازون، وكان المنافسون القتال من أجل اللحاق. ولكن ربما تكون Nvidia على وشك توسيع تقدمها – من خلال وحدة معالجة الرسوميات Blackwell B200 الجديدة و”الرقاقة الفائقة” GB200.

الرئيس التنفيذي لشركة Nvidia Jensen Huang يحمل وحدة معالجة الرسومات الجديدة الخاصة به على اليسار، بجوار H100 على اليمين، من البث المباشر لـ GTC.
الصورة: نفيديا

تقول Nvidia إن وحدة معالجة الرسومات B200 الجديدة توفر ما يصل إلى 20 بيتافلوبس من FP4 حصانًا من 208 مليارات ترانزستورات وأن GB200 الذي يجمع بين اثنتين من وحدات معالجة الرسومات هذه مع وحدة المعالجة المركزية Grace CPU واحدة يمكن أن يقدم أداءً يصل إلى 30 ضعفًا لأحمال عمل استدلال LLM مع احتمال أن يكون أكثر كفاءة إلى حد كبير. تقول نفيديا إنها “تقلل من التكلفة واستهلاك الطاقة بما يصل إلى 25 مرة” مقارنة بـ H100.

فيما يتعلق بمعيار GPT-3 LLM الذي يحتوي على 175 مليار معلمة، تقول Nvidia إن GB200 يتمتع بأداء أكثر تواضعًا إلى حد ما بسبعة أضعاف أداء H100، وتقول Nvidia إنه يوفر سرعة تدريب 4x.

إليك ما يبدو عليه GB200. وحدتا معالجة رسوميات، ووحدة معالجة مركزية واحدة، ولوحة واحدة.
الصورة: نفيديا

أخبرت Nvidia الصحفيين أن أحد الاختلافات الرئيسية هو محرك محول من الجيل الثاني يضاعف الحوسبة وعرض النطاق الترددي وحجم النموذج باستخدام أربعة بتات لكل خلية عصبية بدلاً من ثمانية (وبالتالي 20 بيتافلوب من FP4 التي ذكرتها سابقًا). الفرق الرئيسي الثاني يأتي فقط عندما تقوم بربط أعداد كبيرة من وحدات معالجة الرسومات هذه في الخادم: محول NVLink من الجيل التالي الذي يتيح لـ 576 وحدة معالجة رسوميات التحدث مع بعضها البعض، مع 1.8 تيرابايت في الثانية من عرض النطاق الترددي ثنائي الاتجاه.

تطلب ذلك من Nvidia بناء شريحة تبديل شبكة جديدة بالكامل، واحدة تحتوي على 50 مليار ترانزستور وبعضًا من حوسبةها الخاصة: 3.6 تيرافلوب من FP8، كما تقول Nvidia.

تقول Nvidia إنها تضيف كلاً من FP4 وFP6 مع Blackwell.
الصورة: نفيديا

في السابق، تقول Nvidia، كانت مجموعة مكونة من 16 وحدة معالجة رسوميات فقط تقضي 60 بالمائة من وقتها في التواصل مع بعضها البعض و40 بالمائة فقط في الحوسبة الفعلية.

تعتمد Nvidia على الشركات التي تشتري كميات كبيرة من وحدات معالجة الرسوميات هذه، بالطبع، وتقوم بتعبئتها في تصميمات أكبر جاهزة للحاسوب العملاق، مثل GB200 NVL72، الذي يقوم بتوصيل 36 وحدة معالجة مركزية و72 وحدة معالجة رسوميات في حامل واحد مبرد بالسائل بإجمالي 720 وحدة معالجة رسومية. بيتافلوب من الأداء التدريبي للذكاء الاصطناعي أو 1,440 بيتافلوب (المعروف أيضًا باسم 1.4 com.exaflops) من الاستدلال.

GB200 NVL72.
الصورة: نفيديا

يحتوي كل درج في الحامل إما على شريحتين GB200 أو محولي NVLink، مع 18 من الشريحة الأولى وتسعة من الأخيرة لكل حامل. في المجمل، تقول Nvidia أن أحد هذه الرفوف يمكنه دعم نموذج معلمة يبلغ 27 تريليون. يُشاع أن GPT-4 يبلغ حوالي 1.7 تريليون نموذج معلمة.

وتقول الشركة إن شركات Amazon وGoogle وMicrosoft وOracle جميعها تخطط بالفعل لتقديم رفوف NVL72 في عروض الخدمة السحابية الخاصة بهم، على الرغم من أنه ليس من الواضح عدد الرفوف التي يشترونها.

وبالطبع، يسر شركة Nvidia أن تقدم للشركات بقية الحل أيضًا. إليك DGX Superpod لـ DGX GB200، الذي يجمع ثمانية أنظمة في نظام واحد بإجمالي 288 وحدة معالجة مركزية، و576 وحدة معالجة رسوميات، و240 تيرابايت من الذاكرة، و11.5 إكسافلوبس من حوسبة FP4.

تقول Nvidia أن أنظمتها يمكن أن تصل إلى عشرات الآلاف من شرائح GB200 الفائقة، المتصلة معًا بشبكات بسرعة 800 جيجابت في الثانية مع Quantum-X800 InfiniBand الجديد (لما يصل إلى 144 اتصالًا) أو Spectrum-X800 ethernet (لما يصل إلى 64 اتصالًا).



Source link

Back To Top