| مواصفات NVIDIA L4 | |
|---|---|
| FP 32 | 30.3 تيرافلوبس |
| نواة Tensor TF32 | 60 تيرافلوبس |
| نواة Tensor FP16 | 121 تيرافلوبس |
| نواة Tensor BFLOAT16 | 121 تيرافلوبس |
| نواة Tensor FP8 | 242.5 تيرافلوبس |
| نواة Tensor INT8 | 242.5 TOPs |
| ذاكرة وحدة معالجة الرسومات | 24 جيجابايت GDDR6 |
| عرض نطاق ذاكرة وحدة معالجة الرسومات | 300 جيجابايت/ثانية |
| الحد الأقصى لقوة التصميم الحراري (TDP) | 72 واط |
| عامل الشكل | PCIe منخفض الارتفاع بشق واحد |
| التوصيل البيني | PCIe Gen4 x16 |
| جدول المواصفات | L4 |
بالطبع، مع سعر L4 الذي يقارب 2500 دولار، و A2 بسعر نصف هذا المبلغ تقريبًا، و T4 القديمة (ولكنها لا تزال قادرة جدًا) المتاحة بأقل من 1000 دولار مستعملة، فإن السؤال الواضح هو ما هو الفرق بين وحدات معالجة الرسومات الثلاث للاستنتاج هذه.
| مواصفات NVIDIA L4 و A2 و T4 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30.3 تيرافلوبس | 4.5 تيرافلوبس | 8.1 تيرافلوبس |
| نواة Tensor TF32 | 60 تيرافلوبس | 9 تيرافلوبس | غير متاح |
| نواة Tensor FP16 | 121 تيرافلوبس | 18 تيرافلوبس | غير متاح |
| نواة Tensor BFLOAT16 | 121 تيرافلوبس | 18 تيرافلوبس | غير متاح |
| نواة Tensor FP8 | 242.5 تيرافلوبس | غير متاح | غير متاح |
| نواة Tensor INT8 | 242.5 TOPs | 36 TOPS | 130 TOPS |
| ذاكرة وحدة معالجة الرسومات | 24 جيجابايت GDDR6 | 16 جيجابايت GDDR6 | 16 جيجابايت GDDR6 |
| عرض نطاق ذاكرة وحدة معالجة الرسومات | 300 جيجابايت/ثانية | 200 جيجابايت/ثانية | 320+ جيجابايت/ثانية |
| الحد الأقصى لقوة التصميم الحراري (TDP) | 72 واط | 40-60 واط | 70 واط |
| عامل الشكل | PCIe منخفض الارتفاع بشق واحد | ||
| التوصيل البيني | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| جدول المواصفات | L4 | A2 | T4 |
أحد الأشياء التي يجب فهمها عند النظر إلى هذه البطاقات الثلاث هو أنها ليست بدائل جيلية متطابقة تمامًا، وهذا يفسر سبب بقاء T4، بعد سنوات عديدة، خيارًا شائعًا لبعض حالات الاستخدام. جاءت A2 كبديل لـ T4 كخيار منخفض الطاقة وأكثر توافقًا (x8 مقابل x16 ميكانيكي). من الناحية الفنية، تعد L4 بعد ذلك بديلاً لـ T4، مع وجود A2 في مكان ما بينهما قد يتم تحديثه أو لا يتم تحديثه في وقت ما في المستقبل.
أداء MLPerf Inference 3.1
MLPerf هو اتحاد لقادة الذكاء الاصطناعي من الأوساط الأكاديمية والبحثية والصناعية تم إنشاؤه لتوفير معايير عادلة وذات صلة لأجهزة وبرامج الذكاء الاصطناعي. تم تصميم هذه المعايير لقياس أداء أجهزة وبرامج وخدمات التعلم الآلي في مهام وسيناريوهات مختلفة.
تركز اختباراتنا على معيارين محددين من MLPerf: Resnet50 و BERT.
- Resnet50: هذه شبكة عصبية التفافية (convolutional neural network) تستخدم بشكل أساسي لتصنيف الصور. إنها مؤشر جيد على مدى قدرة النظام على التعامل مع مهام التعلم العميق المتعلقة بمعالجة الصور.
- BERT (Bidirectional Encoder Representations from Transformers): يركز هذا المعيار على مهام معالجة اللغة الطبيعية، ويقدم رؤى حول أداء النظام في فهم ومعالجة اللغة البشرية.
يعد كلا هذين الاختبارين حاسمين لتقييم قدرات أجهزة الذكاء الاصطناعي في سيناريوهات العالم الحقيقي التي تتضمن معالجة الصور واللغة.
يعد تقييم NVIDIA L4 بهذه المعايير أمرًا بالغ الأهمية في المساعدة على فهم قدرات وحدة معالجة الرسومات L4 في مهام الذكاء الاصطناعي المحددة. كما أنه يقدم رؤى حول كيفية تأثير التكوينات المختلفة (إعدادات فردية، مزدوجة، ورباعية) على الأداء. هذه المعلومات حيوية للمهنيين والمؤسسات التي تتطلع إلى تحسين البنية التحتية للذكاء الاصطناعي الخاصة بهم.
يتم تشغيل النماذج في وضعين رئيسيين: الخادم (Server) وغير المتصل (Offline).
- وضع غير متصل (Offline Mode): يقيس هذا الوضع أداء النظام عندما تكون جميع البيانات متاحة للمعالجة في وقت واحد. إنه أشبه بمعالجة الدُفعات، حيث يعالج النظام مجموعة بيانات كبيرة في دفعة واحدة. وضع غير متصل مهم للسيناريوهات التي لا يكون فيها زمن الاستجابة مصدر قلق أساسي، ولكن الإنتاجية والكفاءة هما كذلك.
- وضع الخادم (Server Mode): على النقيض من ذلك، يقيم وضع الخادم أداء النظام في سيناريو يحاكي بيئة خادم واقعية، حيث تأتي الطلبات واحدًا تلو الآخر. هذا الوضع حساس لزمن الاستجابة، ويقيس مدى سرعة استجابة النظام لكل طلب. إنه ضروري للتطبيقات في الوقت الفعلي، مثل خوادم الويب أو التطبيقات التفاعلية، حيث الاستجابة الفورية ضرورية.
1 × NVIDIA L4 - Dell PowerEdge XR7620
كجزء من مراجعتنا الأخيرة لخادم Dell PowerEdge XR7620، المجهز بوحدة NVIDIA L4 واحدة، أخذناه إلى الحافة لتشغيل العديد من المهام، بما في ذلك MLPerf.
شمل تكوين نظام الاختبار الخاص بنا المكونات التالية:
- 2 × Xeon Gold 6426Y - 16 نواة 2.5 جيجاهرتز
- 1 × NVIDIA L4
- 8 × 16 جيجابايت DDR5
- 480 جيجابايت BOSS RAID1
- Ubuntu Server 22.04
- NVIDIA Driver 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | النتيجة |
|---|---|
| Resnet50 - الخادم | 12,204.40 |
| Resnet50 - غير متصل | 13,010.20 |
| BERT K99 - الخادم | 898.945 |
| BERT K99 - غير متصل | 973.435 |
الأداء في سيناريوهات الخادم وغير المتصل لـ Resnet50 و BERT K99 متطابق تقريبًا، مما يشير إلى أن L4 تحافظ على أداء ثابت عبر نماذج الخادم المختلفة.
1، 2 و 4 وحدات NVIDIA L4 - Dell PowerEdge T560
شملت وحدة المراجعة الخاصة بنا المكونات التالية:
- 2 × Intel Xeon Gold 6448Y (32 نواة/64 خيطًا لكل منهما، 225 واط TDP، 2.1-4.1 جيجاهرتز)
- 8 × 1.6 تيرابايت Solidigm P5520 SSDs مع بطاقة PERC 12 RAID
- 1-4 × وحدات معالجة الرسومات NVIDIA L4
- 8 × 64 جيجابايت RDIMMs
- Ubuntu Server 22.04
- NVIDIA Driver 535
| Dell PowerEdge T560 1x NVIDIA L4 | النتيجة |
|---|---|
| Resnet50 - الخادم | 12,204.40 |
| Resnet50 - غير متصل | 12,872.10 |
| Bert K99 - الخادم | 898.945 |
| Bert K99 - غير متصل | 945.146 |
في اختباراتنا مع وحدتي L4 في Dell T560، لاحظنا هذا التوسع شبه الخطي في الأداء لكل من معايير Resnet50 و BERT K99. هذا التوسع هو شهادة على كفاءة وحدات معالجة الرسومات L4 وقدرتها على العمل جنبًا إلى جنب دون خسائر كبيرة بسبب الحمل الزائد أو عدم الكفاءة.
| Dell PowerEdge T560 2x NVIDIA L4 | النتيجة |
|---|---|
| Resnet50 - الخادم | 24,407.50 |
| Resnet50 - غير متصل | 25,463.20 |
| BERT K99 - الخادم | 1,801.28 |
| BERT K99 - غير متصل | 1,904.10 |
التوسع الخطي المتسق الذي شهدناه مع وحدتي NVIDIA L4 يمتد بشكل مثير للإعجاب إلى التكوينات التي تضم أربع وحدات L4. هذا التوسع جدير بالملاحظة بشكل خاص لأن الحفاظ على مكاسب الأداء الخطية يصبح أكثر صعوبة مع كل وحدة معالجة رسومات إضافية بسبب تعقيدات المعالجة المتوازية وإدارة الموارد.
| Dell PowerEdge T560 4x NVIDIA L4 | النتيجة |
|---|---|
| Resnet50 - الخادم | 48,818.30 |
| Resnet50 - غير متصل | 51,381.70 |
| BERT K99 - الخادم | 3,604.96 |
| BERT K99 - غير متصل | 3,821.46 |
هذه النتائج هي لأغراض توضيحية فقط، وليست نتائج تنافسية أو رسمية من MLPerf. للحصول على قائمة كاملة بالنتائج الرسمية، يرجى زيارة صفحة نتائج MLPerf.
بالإضافة إلى التحقق من قابلية التوسع الخطي لوحدات معالجة الرسومات NVIDIA L4، تلقي اختباراتنا في المختبر الضوء على الآثار العملية لنشر هذه الوحدات في سيناريوهات تشغيل مختلفة. على سبيل المثال، يكشف الاتساق في الأداء بين وضعي الخادم وغير المتصل عبر جميع التكوينات مع وحدات معالجة الرسومات L4 عن موثوقيتها وتعدد استخداماتها.
هذا الجانب ذو صلة بشكل خاص بالشركات والمؤسسات البحثية حيث تختلف السياقات التشغيلية بشكل كبير. علاوة على ذلك، فإن ملاحظاتنا حول التأثير الأدنى لاختناقات التوصيل البيني وكفاءة مزامنة وحدة معالجة الرسومات في إعدادات وحدات معالجة الرسومات المتعددة توفر رؤى قيمة لأولئك الذين يتطلعون إلى توسيع نطاق البنية التحتية للذكاء الاصطناعي الخاصة بهم. تتجاوز هذه الرؤى مجرد أرقام المعايير، وتقدم فهمًا أعمق لكيفية الاستفادة المثلى من هذه الأجهزة في سيناريوهات العالم الحقيقي، وتوجيه قرارات معمارية أفضل واستراتيجيات استثمار في البنية التحتية للذكاء الاصطناعي والحوسبة عالية الأداء (HPC).
أداء تطبيق NVIDIA L4
قارنا أداء NVIDIA L4 الجديدة مقابل NVIDIA A2 و NVIDIA T4 التي سبقتها. لعرض هذا الترقية في الأداء مقارنة بالنماذج السابقة، قمنا بنشر جميع النماذج الثلاثة داخل خادم في مختبرنا، مع Windows Server 2022 وأحدث برامج تشغيل NVIDIA، مستفيدين من مجموعة اختبارات وحدة معالجة الرسومات الكاملة لدينا.
تم اختبار هذه البطاقات على Dell Poweredge R760 بالتكوين التالي:
- 2 × Intel Xeon Gold 6430 (32 نواة، 2.1 جيجاهرتز)
- Windows Server 2022
- NVIDIA Driver 538.15
- ECC معطل على جميع البطاقات لأخذ عينات 1x
مع بدء اختبار الأداء بين هذه المجموعة من ثلاث وحدات معالجة رسومات للمؤسسات، من المهم ملاحظة الاختلافات الفريدة في الأداء بين طرازي A2 و T4 الأقدم. عندما تم إصدار A2، قدمت تحسينات ملحوظة مثل استهلاك طاقة أقل والعمل على فتحة PCIe Gen4 x8 أصغر، بدلاً من فتحة PCIe Gen3 x16 الأكبر التي كانت تتطلبها T4 الأقدم. سمح لها ذلك بالتركيب في المزيد من الأنظمة، خاصة مع البصمة الأصغر المطلوبة.
Blender OptiX 4.0
Blender OptiX هو تطبيق نمذجة ثلاثية الأبعاد مفتوح المصدر. يمكن تشغيل هذا الاختبار لكل من وحدة المعالجة المركزية ووحدة معالجة الرسومات، ولكننا قمنا فقط بوحدة معالجة الرسومات مثل معظم الاختبارات الأخرى هنا. تم تشغيل هذا المعيار باستخدام أداة Blender Benchmark CLI. النتيجة هي عينات في الدقيقة، حيث الأعلى أفضل.
| Blender 4.0 (الأعلى أفضل) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI - Monster | 2,207.765 | 458.692 | 850.076 |
| GPU Blender CLI - Junkshop | 1,127.829 | 292.553 | 517.243 |
| GPU Blender CLI - Classroom | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW Speed Test
نحن نختبر وحدات المعالجة المركزية ووحدات معالجة الرسومات باستخدام Blackmagic RAW Speed Test الذي يختبر سرعات تشغيل الفيديو. هذا هو اختبار هجين يتضمن أداء وحدة المعالجة المركزية ووحدة معالجة الرسومات لفك تشفير RAW في العالم الحقيقي. يتم عرض هذه كنتائج منفصلة ولكننا نركز فقط على وحدات معالجة الرسومات هنا، لذلك تم حذف نتائج وحدة المعالجة المركزية.
| Blackmagic RAW Speed Test (الأعلى أفضل) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Maxon Cinebench 2024 هو معيار عرض ثلاثي الأبعاد لوحدة المعالجة المركزية ووحدة معالجة الرسومات يستخدم جميع نوى وخيوط وحدة المعالجة المركزية. مرة أخرى، نظرًا لأننا نركز على نتائج وحدة معالجة الرسومات، لم نقم بتشغيل أجزاء وحدة المعالجة المركزية من الاختبار. النتائج الأعلى أفضل.
| Cinebench 2024 (الأعلى أفضل) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| وحدة معالجة الرسومات | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3 هو إصدار من أداة القياس الخفيفة المصممة لحساب π (باي) بالمليارات من المنازل العشرية باستخدام تسريع الأجهزة عبر وحدات معالجة الرسومات ووحدات المعالجة المركزية. تستفيد من قوة الحوسبة لـ OpenCL و CUDA التي تشمل كلاً من وحدات المعالجة المركزية والرسومات. قمنا بتشغيل CUDA فقط على جميع وحدات معالجة الرسومات الثلاث والأرقام هنا هي وقت الحساب بدون إضافة وقت الاختزال. الأقل أفضل.
| وقت حساب GPU PI بالثواني (الأقل أفضل) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 - 1B | 3.732 ثانية | 19.799 ثانية | 7.504 ثانية |
| GPUPI v3.3 - 32B | 244.380 ثانية | 1,210.801 ثانية | 486.231 ثانية |
بينما نظرت النتائج السابقة في تكرار واحد فقط لكل بطاقة، أتيحت لنا أيضًا فرصة للنظر في نشر 5 × NVIDIA L4 داخل Dell PowerEdge T560.
| وقت حساب GPU PI بالثواني (الأقل أفضل) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) مع 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 - 1B | 0 ثانية 850 مللي ثانية |
| GPUPI v3.3 - 32B | 50 ثانية 361 مللي ثانية |
Octanebench
OctaneBench هي أداة قياس لـ OctaneRender، وهو عارض ثلاثي الأبعاد آخر يدعم RTX مشابه لـ V-Ray.
| Octane (الأعلى أفضل) | ||||
| المشهد | النواة | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| داخلي | قنوات المعلومات | 15.59 | 4.49 | 6.39 |
| إضاءة مباشرة | 50.85 | 14.32 | 21.76 | |
| تتبع المسار | 64.02 | 18.46 | 25.76 | |
| فكرة | قنوات المعلومات | 9.30 | 2.77 | 3.93 |
| إضاءة مباشرة | 39.34 | 11.53 | 16.79 | |
| تتبع المسار | 48.24 | 14.21 | 20.32 | |
| ATV | قنوات المعلومات | 24.38 | 6.83 | 9.50 |
| إضاءة مباشرة | 54.86 | 16.05 | 21.98 | |
| تتبع المسار | 68.98 | 20.06 | 27.50 | |
| صندوق | قنوات المعلومات | 12.89 | 3.88 | 5.42 |
| إضاءة مباشرة | 48.80 | 14.59 | 21.36 | |
| تتبع المسار | 54.56 | 16.51 | 23.85 | |
| النتيجة الإجمالية | 491.83 | 143.71 | 204.56 | |
Geekbench 6 GPU
Geekbench 6 هو معيار متعدد المنصات يقيس أداء النظام العام. هناك خيارات اختبار لكل من قياس أداء وحدة المعالجة المركزية ووحدة معالجة الرسومات. النتائج الأعلى أفضل. مرة أخرى، نظرنا فقط في نتائج وحدة معالجة الرسومات.
يمكنك العثور على مقارنات مع أي نظام تريده في متصفح Geekbench.
| Geekbench 6.1.0 (الأعلى أفضل) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark هي أداة قياس متعددة المنصات لـ OpenCL من أولئك الذين يحتفظون بمحرك العرض ثلاثي الأبعاد مفتوح المصدر LuxRender. تبحث هذه الأداة في أداء وحدة معالجة الرسومات في النمذجة ثلاثية الأبعاد والإضاءة وأعمال الفيديو. في هذا الاستعراض، استخدمنا أحدث إصدار، v4alpha0. في LuxMark، الأعلى أفضل عندما يتعلق الأمر بالنتيجة.
| Luxmark v4.0alpha0 وحدات معالجة الرسومات OpenCL (الأعلى أفضل) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| قاعة المعرض | 14,328 | 3,759 | 5,893 |
| قاعة الطعام | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
قمنا أيضًا بتجميع GROMACS، وهو برنامج ديناميكيات جزيئية، خصيصًا لـ CUDA. تم إجراء هذا التجميع المخصص للاستفادة من قدرات المعالجة المتوازية لوحدات معالجة الرسومات NVIDIA L4 الخمس، وهو أمر ضروري لتسريع المحاكاة الحسابية.
تضمنت العملية استخدام nvcc، مترجم CUDA من NVIDIA، جنبًا إلى جنب مع العديد من التكرارات من علامات التحسين المناسبة لضمان ضبط الثنائيات بشكل صحيح على بنية الخادم. يسمح تضمين دعم CUDA في تجميع GROMACS للبرنامج بالتفاعل مباشرة مع أجهزة وحدة معالجة الرسومات، مما يمكن أن يحسن بشكل كبير أوقات الحساب للمحاكاة المعقدة.
الاختبار: تفاعل البروتين المخصص في Gromacs
بالاستفادة من ملف إدخال مقدم من المجتمع من خادم Discord المتنوع لدينا، والذي احتوى على معلمات وهياكل مصممة لدراسة تفاعل بروتين محدد، بدأنا محاكاة ديناميكيات جزيئية. كانت النتائج رائعة - حقق النظام معدل محاكاة يبلغ 170.268 نانوثانية في اليوم.
| وحدة معالجة الرسومات | النظام | نانوثانية/يوم | وقت النواة (ثانية) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163,763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
| 5 × NVIDIA L4 | Dell T560 مع 2 × Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
أكثر من الذكاء الاصطناعي
اتصل شخص: Ms. Sandy Yang
الهاتف :: 13426366826



