تبرز خصائص محددة لـ NVIDIA DGX Spark: ذاكرة موحدة بطاقة 128GB في وحدة سطح المكتب بقيمة 4000 دولار ، وشبكة مركز بيانات مدمجة بطاقة 200Gb.النسيج عالي السرعة يختلف عن محطات العمل العادية، مما يتيح تجميع عدة عقدات في وقت سابق حصريا للخوادم المثبتة على الرف.ومتغيرات HP Spark في مجموعات 200GbE ذات عقدتين عبر نماذج وحملات عمل متنوعةكما يحلل موازية خط الأنابيب (PP) ، وهي طريقة تقسيم بديلة تفوق أداء موازية التنسور الافتراضي لـ NVIDIA (TP).
نسيج الشبكة 200 جيجابايت
يزود كل Spark بقفصين QSFP56 مقترنين بـ ConnectX-7 SmartNIC المدمج. محدودة بـ PCIe Gen5 x4 عرض النطاق الترددي ، وسرعة الشبكة القابلة للاستخدام عند 200Gb ،مع منفذ واحد كافٍ لنطاق النطاق الترددي الكامل؛ يقدم الميناء الثاني مرونة الطوبولوجية. ثلاثة تكوينات شائعة متوفرة: وصلات Spark-to-Spark 200Gb مباشرة ، طوبولوجيا الحلقة الخالية من التحويل عبر منافذ 100Gb مزدوجة ،وتجميع الهجينة مع NVMe-oF وصول التخزين عالية السرعةإنفيديا تبيع أجهزة سطح المكتب ذات وحدة واحدة، ومجموعات معتمدة من عقدتين، وإعدادات جديدة من أربع عقدات.التكوين مزدوج-شعلة هو الأكثر عملية لإنتاج النمط استنتاج والتركيز على هذا الاختبار.
أسباب تجميع الشرارة
الفائدة الأساسية هي توسيع سعة النموذج: يمكن لـ Sparks المرتبطة اثنين تشغيل نماذج 120B-parameter تتجاوز حدود ذاكرة وحدة واحدة. والأهم من ذلك ، يمكن أن يتم تشغيل النموذج من خلال إرسال إشارات إلى المتصفح.المنصة بمثابة أداة تعليمية بأسعار معقولةتصمم NVIDIA Spark للمبتدئين لتعلم سير العمل في الذكاء الاصطناعي ، مع أدلة رسمية تغطي نشر النموذج ، والتعديل الدقيق ، وتطوير PyTorch / JAX.تعلّم مجموعات العقدة المزدوجة أيضًا التوازي المتعدد العقدة وتحليل اختناقات الشبكة دون أجهزة مركز البيانات المكلفةومن الجدير بالذكر أن سبارك لم يتم تحسينها لاستدلال الإنتاج. مقيدة بعرض النطاق الترددي للذاكرة وفترة تأخير بين العقدات ، فإن وصلة 200GbE أبطأ من اتصالات PCIe الداخلية.المجموعات الكبيرة تعاني من تدهور كبير في الأداء، مع انخفاض معدل إرسال الرموز، مما يقتصر عليها للاستخدام التعليمي بدلا من خدمة التجارية.
اختبار الأداء: PP مقابل TP
اختيار استراتيجية التوازي
تعتمد NVIDIA افتراضياً على TP ، والتي تقسم كل طبقة محول عبر GPUs اثنين مع تبادل بيانات متكرر. على النقيض من ذلك ، يقسم PP النماذج طبقةً ،نقل التفعيلات مرة واحدة فقط بين العقدعلى وصلات 200GbE ، يقلل PP من الاتصال عبر العقدة. بالنسبة للنماذج الكبيرة في أحجام الدفعات العالية ، يتفوق PP على TP ؛ TP يبرز فقط في سيناريوهات الدردشة ذات الطلب الواحد منخفضة التأخير.
تؤكد الاختبارات على GPT-OSS-120B هذه الفجوة. عند حجم المجموعة 128 ، يصل PP إلى 554.69 tok / s (2.20 × أسرع من TP) في أحمال العمل المتوازنة ، 310.63 tok / s مقابل 164.99 tok / s في المهام الثقيلة المسبقة.مؤشرات TP فقط في الحجم الأول من المجموعةبالنسبة للنماذج الصغيرة مثل لاما 3.1-8B ، تهيمن TP على معظم أحجام الدفعات بسبب حساب الطبقة الخفيفة الوزن ، حيث تتجاوز PP TP فقط عند التزامن العالي.
نتائج مقارنة متعددة النماذج (PP=2)
سلسلة GPT-OSS
بالنسبة لـ GPT-OSS-120B ، تصدرت HP ذروة الإنجاز في أحمال العمل المتوازنة (504.88 توك / ثانية) والثقيلة (441.63 توك / ثانية) ؛ قادت GIGABYTE اختبارات الترميز الثقيلة (494.37 توك / ثانية).ديل هيمنة متوازنة (976.77 tok/s) و سيناريوهات الاكتمال المسبق الثقيلة (852.39 tok/s) ، بينما قادت GIGABYTE مهام فك الترميز (945.55 tok/s).
لاما 3.1 8B المتغيرات
في دقة BF16 ، قادت ديل أحمال العمل المتوازنة (689.53 توك / ثانية) والثقيلة في فك الترميز (581.43 توك / ثانية) ؛ فاز GIGABYTE في الاختبارات الثقيلة قبل التعبئة (539.27 توك / ثانية). عززت تحسينات FP4 الناتج بشكل حاد:جيجابايت LED متوازنة (1458.86 توك/ث) ومهمات التعبئة المسبقة الثقيلة (954.23 توك/ث). في البرنامج الإجمالي 8، حافظت ديل على قيود ضيقة في سيناريوهات متوازنة (1105.42 توك/ث) وثقيلة في فك الترميز (862.33 توك/ث).
نماذج ميسترال وكوين
شهدت Mistral Small 3.1 24B فواصل ضئيلة: بلغت GIGABYTE ذروتها عند 255.09 tok/s في أحمال العمل المتوازنة. بالنسبة لـ Qwen3 Coder 30B (A3B Base) ، قادت GIGABYTE المهام الثقيلة للملء المسبق (1862.40 tok/s) ؛(ديل) تتفوق في سيناريوهات فك الشفرةفي ظل الكمية في FB8 ، قامت GIGABYTE بتفوق معدل التعبئة الثقيل (3088.62 توك / ثانية) ، في حين قادت ديل مهام فك الترميز (705.77 توك / ثانية).
ملخص ذروة إنتاج أنظمة الشرارة المزدوجة
|
النموذج
|
السيناريو (BS 64)
|
ذروة إنتاج ديل
|
جيجابايت ذروة الإنتاج
|
ذروة الخروج من HP
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
ISL/OSL متساوية
|
463.97 توك/ثانية
|
497.26 توك/ثانية
|
504.88 توك/س
|
|
GPT-OSS-120B
|
ملء مسبق ثقيل
|
419.56tok/s
|
417.34 توك/ثانية
|
441.63 توك/ثانية
|
|
GPT-OSS-120B
|
فك الترميز الثقيل
|
451.18 توك/ثانية
|
494.37 توك/ثانية
|
474.85 توك/س
|
|
GPT-OSS-20B
|
ISL/OSL متساوية
|
976.77 توك/ثانية
|
952.31 توك/ثانية
|
915.72 توك/ثانية
|
|
GPT-OSS-20B
|
ملء مسبق ثقيل
|
852.39 توك/ثانية
|
802.37 توك/ثانية
|
757.05 توك/س
|
|
GPT-OSS-20B
|
فك الترميز الثقيل
|
938.65 توك/س
|
945.55tok/s
|
865.78 توك/ثانية
|
|
(لاما) 3.1-8B-تعليم
|
ISL/OSL متساوية
|
689.53 توك/ثانية
|
687.48 توك/ثانية
|
618.87 توك/س
|
|
(لاما) 3.1-8B-تعليم
|
ملء مسبق ثقيل
|
515.45 توك/ثانية
|
539.27 توك/ثانية
|
463.39 توك/ثانية
|
|
(لاما) 3.1-8B-تعليم
|
فك الترميز الثقيل
|
581.43 توك/ثانية
|
576.91 توك/ثانية
|
531.07 توك/ثانية
|
|
(لاما) 3.1-8B-FP4
|
ISL/OSL متساوية
|
1427.39 توك/ثانية
|
1458.86 توك/س
|
1413.51 توك/ثانية
|
|
(لاما) 3.1-8B-FP4
|
ملء مسبق ثقيل
|
884.22 توك/ثانية
|
954.23 توك/ثانية
|
843.57 توك/ثانية
|
|
(لاما) 3.1-8B-FP4
|
فك الترميز الثقيل
|
1008.98 توك/ثانية
|
1007.23 توك/ثانية
|
943.73 توك/ثانية
|
|
(لاما) 3.1-8B-FP8
|
ISL/OSL متساوية
|
1105.42 توك/ثانية
|
1089.85 توك/س
|
1076.68 توك/ثانية
|
|
(لاما) 3.1-8B-FP8
|
ملء مسبق ثقيل
|
759.50 توك/س
|
827.40 توك/س
|
725.51 توك/ث
|
|
(لاما) 3.1-8B-FP8
|
فك الترميز الثقيل
|
862.33 توك/ثانية
|
855.81 توك/ث
|
800.78 توك/ثانية
|
|
(مسترال-سمول) 3.1-24B
|
ISL/OSL متساوية
|
249.77 توك/ثانية
|
255.09 توك/ثانية
|
239.09 توك/ثانية
|
|
(مسترال-سمول) 3.1-24B
|
ملء مسبق ثقيل
|
216.01 توك/ثانية
|
214.38 توك/ثانية
|
197.92 توك/ثانية
|
|
(مسترال-سمول) 3.1-24B
|
فك الترميز الثقيل
|
238.44 توك/ثانية
|
237.97 توك/ثانية
|
221.41 توك/ثانية
|
الاستنتاج
توفر وحدات Dell و GIGABYTE و HP Spark فجوات أداء ضئيلة ، مع قيود بسيطة محددة للشرائح. يجب أن تعطي قرارات الشراء الأولوية لتصميم الهيكل والأداء الحراري والضمان ،ودعم ما بعد البيع على الاختلافات البسيطة في المعاييراستراتيجية التوازي لها تأثير أكبر بكثير من الاختلافات OEM: PP تفوق TP للاستنتاج المجموعة، في حين أن TP تناسب التفاعل واحد-التيار منخفضة الكمون.توصية NVIDIA TP تتوافق مع وضع Spark كجهاز للتعلم التفاعلي بدلاً من البنية التحتية للإنتاجتعمل مجموعة Spark مزدوجة العقدة كمنصة تعليمية بأسعار معقولة للذكاء الاصطناعي الموزع. ستغطي الاختبارات المستقبلية مجموعات أكبر وتدريب النموذج الصغير من النهاية إلى النهاية.في انتظار المختبر 800Gb تطبيق المفتاح.
شركة بكين تشيانكسينغ جييتونغ للتكنولوجيا المحدودة
ساندي يانغ مدير الاستراتيجية العالمية
واتساب / ويتشات: +86 13426366826
البريد الإلكتروني: yangyd@qianxingdata.com
الموقع: www.qianxingdata.com/www.storagesserver.com
التركيز على الأعمال:
توزيع منتجات تكنولوجيا المعلومات والاتصالات / تكامل النظام والخدمات / حلول البنية التحتية
مع أكثر من 20 عامًا من الخبرة في توزيع تكنولوجيا المعلومات، نحن نتعاون مع العلامات التجارية العالمية الرائدة لتقديم منتجات موثوقة وخدمات مهنية.
استخدام التكنولوجيا لبناء عالم ذكي مزود خدمة منتجات تكنولوجيا المعلومات والاتصالات الموثوق به
ساندي يانغ مدير الاستراتيجية العالمية
واتساب / ويتشات: +86 13426366826
البريد الإلكتروني: yangyd@qianxingdata.com
الموقع: www.qianxingdata.com/www.storagesserver.com
التركيز على الأعمال:
توزيع منتجات تكنولوجيا المعلومات والاتصالات / تكامل النظام والخدمات / حلول البنية التحتية
مع أكثر من 20 عامًا من الخبرة في توزيع تكنولوجيا المعلومات، نحن نتعاون مع العلامات التجارية العالمية الرائدة لتقديم منتجات موثوقة وخدمات مهنية.
استخدام التكنولوجيا لبناء عالم ذكي مزود خدمة منتجات تكنولوجيا المعلومات والاتصالات الموثوق به



