logo
منزل القضايا

مراجعة NVIDIA L4 GPU معالج الاستنتاج منخفض الطاقة

شهادة
الصين Beijing Qianxing Jietong Technology Co., Ltd. الشهادات
الصين Beijing Qianxing Jietong Technology Co., Ltd. الشهادات
زبون مراجعة
موظفو المبيعات في Beijing Qianxing Jietong Technology Co. ، Ltd محترفون وصبورون للغاية. يمكنهم تقديم الاقتباسات بسرعة. كما أن جودة المنتجات وتعبئتها جيدة جدًا. تعاوننا سلس للغاية.

—— 《Festfing DV LLC

عندما كنت أبحث عن وحدة المعالجة المركزية Intel CPU و Toshiba SSD بشكل عاجل ، أعطتني Sandy من Beijing Qianxing Jietong Technology Co.، Ltd الكثير من المساعدة وحصلت على المنتجات التي أحتاجها بسرعة. أنا حقا أقدرها.

—— كيتي ين

ساندي من بكين Qianxing Jietong Technology Co. ، Ltd هو بائع دقيق للغاية ، يمكنه تذكيرني بأخطاء التكوين في الوقت المناسب عندما أشتري خادمًا. المهندسون محترفون للغاية ويمكنهم إكمال عملية الاختبار بسرعة.

—— ستريلكين ميخائيل فلاديميروفيتش

نحن سعداء جدًا بتجربتنا في العمل مع شركة بكين تشيانشينغ جيتونغ. جودة المنتج ممتازة، والتسليم دائمًا في الموعد المحدد. فريق المبيعات لديهم محترف، صبور، ومفيد جدًا في الإجابة على جميع أسئلتنا. نحن نقدر حقًا دعمهم ونتطلع إلى شراكة طويلة الأمد. موصى به بشدة!

—— أحمد نافيد

الجودة: تجربة رائعة مع موردي. كانت ميكروتيك RB3011 مستخدمة بالفعل، لكنها كانت في حالة جيدة جدا وكل شيء يعمل بشكل مثالي. التواصل كان سريعا وسلاسة،وكل مخاوفي تمت معالجتها بسرعةمُزود موثوق به جداً

—— جيران كوليسيو

ابن دردش الآن

مراجعة NVIDIA L4 GPU معالج الاستنتاج منخفض الطاقة

March 13, 2026
في ظل الموجة المتواصلة للابتكار في مشهد الذكاء الاصطناعي اليوم، يعد قياس وفهم قدرات منصات الأجهزة المختلفة أمرًا بالغ الأهمية. لا تتطلب جميع تطبيقات الذكاء الاصطناعي مزارع تدريب ضخمة لوحدات معالجة الرسومات (GPU) - فهناك شريحة حيوية من الذكاء الاصطناعي الاستنتاجي (inferencing AI) تتطلب غالبًا طاقة أقل لوحدات معالجة الرسومات، خاصة على الحافة (edge). في هذا الاستعراض، نفحص العديد من وحدات معالجة الرسومات NVIDIA L4 عبر ثلاثة خوادم Dell مختلفة ومجموعة من أعباء العمل، بما في ذلك MLperf، لتقييم أداء L4.
 
أحدث حالة شركة حول مراجعة NVIDIA L4 GPU معالج الاستنتاج منخفض الطاقة  0
 
NVIDIA L4
وحدة معالجة الرسومات NVIDIA L4
في جوهرها، تقدم L4 أداءً مذهلاً يبلغ 30.3 تيرافلوبس (teraFLOPs) من FP32، مما يجعلها مثالية للمهام الحسابية عالية الدقة. تمتد قدراتها إلى الحسابات المختلطة الدقة عبر نوى Tensor (Tensor Cores) TF32 و FP16 و BFLOAT16 - وهي ميزات حاسمة لتعزيز كفاءة التعلم العميق. وفقًا لورقة مواصفات L4، يتراوح الأداء في هذه الأوضاع المختلطة الدقة من 60 إلى 121 تيرافلوبس.
 
تتفوق L4 في المهام منخفضة الدقة، حيث تقدم 242.5 تيرافلوبس مع نوى Tensor FP8 و INT8، والتي تعزز بشكل كبير أداء الاستنتاج للشبكات العصبية. بفضل ذاكرة GDDR6 بسعة 24 جيجابايت وعرض نطاق ترددي يبلغ 300 جيجابايت/ثانية، يمكنها التعامل بسهولة مع مجموعات البيانات الكبيرة والنماذج المعقدة. ومع ذلك، فإن ما يميز L4 أكثر هو كفاءتها في استهلاك الطاقة: مع TDP يبلغ 72 واط، فهي مناسبة تمامًا لمجموعة واسعة من بيئات الحوسبة. هذا المزيج من الأداء العالي وكفاءة الذاكرة واستهلاك الطاقة المنخفض يجعل NVIDIA L4 خيارًا مقنعًا لمعالجة تحديات الحوسبة الطرفية.
 
أحدث حالة شركة حول مراجعة NVIDIA L4 GPU معالج الاستنتاج منخفض الطاقة  1
 
مواصفات NVIDIA L4
FP 32 30.3 تيرافلوبس
نواة Tensor TF32 60 تيرافلوبس
نواة Tensor FP16 121 تيرافلوبس
نواة Tensor BFLOAT16 121 تيرافلوبس
نواة Tensor FP8 242.5 تيرافلوبس
نواة Tensor INT8 242.5 TOPs
ذاكرة وحدة معالجة الرسومات 24 جيجابايت GDDR6
عرض نطاق ذاكرة وحدة معالجة الرسومات 300 جيجابايت/ثانية
الحد الأقصى لقوة التصميم الحراري (TDP) 72 واط
عامل الشكل PCIe منخفض الارتفاع بشق واحد
التوصيل البيني PCIe Gen4 x16
جدول المواصفات L4

 

 

بالطبع، مع سعر L4 الذي يقارب 2500 دولار، و A2 بسعر نصف هذا المبلغ تقريبًا، و T4 القديمة (ولكنها لا تزال قادرة جدًا) المتاحة بأقل من 1000 دولار مستعملة، فإن السؤال الواضح هو ما هو الفرق بين وحدات معالجة الرسومات الثلاث للاستنتاج هذه.

مواصفات NVIDIA L4 و A2 و T4 NVIDIA L4 NVIDIA A2 NVIDIA T4
FP 32 30.3 تيرافلوبس 4.5 تيرافلوبس 8.1 تيرافلوبس
نواة Tensor TF32 60 تيرافلوبس 9 تيرافلوبس غير متاح
نواة Tensor FP16 121 تيرافلوبس 18 تيرافلوبس غير متاح
نواة Tensor BFLOAT16 121 تيرافلوبس 18 تيرافلوبس غير متاح
نواة Tensor FP8 242.5 تيرافلوبس غير متاح غير متاح
نواة Tensor INT8 242.5 TOPs 36 TOPS 130 TOPS
ذاكرة وحدة معالجة الرسومات 24 جيجابايت GDDR6 16 جيجابايت GDDR6 16 جيجابايت GDDR6
عرض نطاق ذاكرة وحدة معالجة الرسومات 300 جيجابايت/ثانية 200 جيجابايت/ثانية 320+ جيجابايت/ثانية
الحد الأقصى لقوة التصميم الحراري (TDP) 72 واط 40-60 واط 70 واط
عامل الشكل PCIe منخفض الارتفاع بشق واحد
التوصيل البيني PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
جدول المواصفات L4 A2 T4

 

 

أحد الأشياء التي يجب فهمها عند النظر إلى هذه البطاقات الثلاث هو أنها ليست بدائل جيلية متطابقة تمامًا، وهذا يفسر سبب بقاء T4، بعد سنوات عديدة، خيارًا شائعًا لبعض حالات الاستخدام. جاءت A2 كبديل لـ T4 كخيار منخفض الطاقة وأكثر توافقًا (x8 مقابل x16 ميكانيكي). من الناحية الفنية، تعد L4 بعد ذلك بديلاً لـ T4، مع وجود A2 في مكان ما بينهما قد يتم تحديثه أو لا يتم تحديثه في وقت ما في المستقبل.

أداء MLPerf Inference 3.1

MLPerf هو اتحاد لقادة الذكاء الاصطناعي من الأوساط الأكاديمية والبحثية والصناعية تم إنشاؤه لتوفير معايير عادلة وذات صلة لأجهزة وبرامج الذكاء الاصطناعي. تم تصميم هذه المعايير لقياس أداء أجهزة وبرامج وخدمات التعلم الآلي في مهام وسيناريوهات مختلفة.

تركز اختباراتنا على معيارين محددين من MLPerf: Resnet50 و BERT.

  • Resnet50: هذه شبكة عصبية التفافية (convolutional neural network) تستخدم بشكل أساسي لتصنيف الصور. إنها مؤشر جيد على مدى قدرة النظام على التعامل مع مهام التعلم العميق المتعلقة بمعالجة الصور.
  • BERT (Bidirectional Encoder Representations from Transformers): يركز هذا المعيار على مهام معالجة اللغة الطبيعية، ويقدم رؤى حول أداء النظام في فهم ومعالجة اللغة البشرية.

يعد كلا هذين الاختبارين حاسمين لتقييم قدرات أجهزة الذكاء الاصطناعي في سيناريوهات العالم الحقيقي التي تتضمن معالجة الصور واللغة.

يعد تقييم NVIDIA L4 بهذه المعايير أمرًا بالغ الأهمية في المساعدة على فهم قدرات وحدة معالجة الرسومات L4 في مهام الذكاء الاصطناعي المحددة. كما أنه يقدم رؤى حول كيفية تأثير التكوينات المختلفة (إعدادات فردية، مزدوجة، ورباعية) على الأداء. هذه المعلومات حيوية للمهنيين والمؤسسات التي تتطلع إلى تحسين البنية التحتية للذكاء الاصطناعي الخاصة بهم.

يتم تشغيل النماذج في وضعين رئيسيين: الخادم (Server) وغير المتصل (Offline).

  • وضع غير متصل (Offline Mode): يقيس هذا الوضع أداء النظام عندما تكون جميع البيانات متاحة للمعالجة في وقت واحد. إنه أشبه بمعالجة الدُفعات، حيث يعالج النظام مجموعة بيانات كبيرة في دفعة واحدة. وضع غير متصل مهم للسيناريوهات التي لا يكون فيها زمن الاستجابة مصدر قلق أساسي، ولكن الإنتاجية والكفاءة هما كذلك.
  • وضع الخادم (Server Mode): على النقيض من ذلك، يقيم وضع الخادم أداء النظام في سيناريو يحاكي بيئة خادم واقعية، حيث تأتي الطلبات واحدًا تلو الآخر. هذا الوضع حساس لزمن الاستجابة، ويقيس مدى سرعة استجابة النظام لكل طلب. إنه ضروري للتطبيقات في الوقت الفعلي، مثل خوادم الويب أو التطبيقات التفاعلية، حيث الاستجابة الفورية ضرورية.

1 × NVIDIA L4 - Dell PowerEdge XR7620

 

أحدث حالة شركة حول مراجعة NVIDIA L4 GPU معالج الاستنتاج منخفض الطاقة  2

كجزء من مراجعتنا الأخيرة لخادم Dell PowerEdge XR7620، المجهز بوحدة NVIDIA L4 واحدة، أخذناه إلى الحافة لتشغيل العديد من المهام، بما في ذلك MLPerf.

شمل تكوين نظام الاختبار الخاص بنا المكونات التالية:

  • 2 × Xeon Gold 6426Y - 16 نواة 2.5 جيجاهرتز
  • 1 × NVIDIA L4
  • 8 × 16 جيجابايت DDR5
  • 480 جيجابايت BOSS RAID1
  • Ubuntu Server 22.04
  • NVIDIA Driver 535
Dell PowerEdge XR7620 1x NVIDIA L4 النتيجة
Resnet50 - الخادم 12,204.40
Resnet50 - غير متصل 13,010.20
BERT K99 - الخادم 898.945
BERT K99 - غير متصل 973.435

 

 

الأداء في سيناريوهات الخادم وغير المتصل لـ Resnet50 و BERT K99 متطابق تقريبًا، مما يشير إلى أن L4 تحافظ على أداء ثابت عبر نماذج الخادم المختلفة.

1، 2 و 4 وحدات NVIDIA L4 - Dell PowerEdge T560

أحدث حالة شركة حول مراجعة NVIDIA L4 GPU معالج الاستنتاج منخفض الطاقة  3

شملت وحدة المراجعة الخاصة بنا المكونات التالية:

  • 2 × Intel Xeon Gold 6448Y (32 نواة/64 خيطًا لكل منهما، 225 واط TDP، 2.1-4.1 جيجاهرتز)
  • 8 × 1.6 تيرابايت Solidigm P5520 SSDs مع بطاقة PERC 12 RAID
  • 1-4 × وحدات معالجة الرسومات NVIDIA L4
  • 8 × 64 جيجابايت RDIMMs
  • Ubuntu Server 22.04
  • NVIDIA Driver 535
بالعودة إلى مركز البيانات من الحافة واستخدام خادم Dell T560 Tower متعدد الاستخدامات، لاحظنا أن L4 تعمل بنفس الجودة في اختبار وحدة معالجة الرسومات الواحدة. هذا يوضح أن كلا المنصتين يمكن أن توفر أساسًا قويًا لـ L4 دون اختناقات.
 
Dell PowerEdge T560 1x NVIDIA L4 النتيجة
Resnet50 - الخادم 12,204.40
Resnet50 - غير متصل 12,872.10
Bert K99 - الخادم 898.945
Bert K99 - غير متصل 945.146

 

 

في اختباراتنا مع وحدتي L4 في Dell T560، لاحظنا هذا التوسع شبه الخطي في الأداء لكل من معايير Resnet50 و BERT K99. هذا التوسع هو شهادة على كفاءة وحدات معالجة الرسومات L4 وقدرتها على العمل جنبًا إلى جنب دون خسائر كبيرة بسبب الحمل الزائد أو عدم الكفاءة.

Dell PowerEdge T560 2x NVIDIA L4 النتيجة
Resnet50 - الخادم 24,407.50
Resnet50 - غير متصل 25,463.20
BERT K99 - الخادم 1,801.28
BERT K99 - غير متصل 1,904.10

 

 

التوسع الخطي المتسق الذي شهدناه مع وحدتي NVIDIA L4 يمتد بشكل مثير للإعجاب إلى التكوينات التي تضم أربع وحدات L4. هذا التوسع جدير بالملاحظة بشكل خاص لأن الحفاظ على مكاسب الأداء الخطية يصبح أكثر صعوبة مع كل وحدة معالجة رسومات إضافية بسبب تعقيدات المعالجة المتوازية وإدارة الموارد.

Dell PowerEdge T560 4x NVIDIA L4 النتيجة
Resnet50 - الخادم 48,818.30
Resnet50 - غير متصل 51,381.70
BERT K99 - الخادم 3,604.96
BERT K99 - غير متصل 3,821.46

 

 

هذه النتائج هي لأغراض توضيحية فقط، وليست نتائج تنافسية أو رسمية من MLPerf. للحصول على قائمة كاملة بالنتائج الرسمية، يرجى زيارة صفحة نتائج MLPerf.

بالإضافة إلى التحقق من قابلية التوسع الخطي لوحدات معالجة الرسومات NVIDIA L4، تلقي اختباراتنا في المختبر الضوء على الآثار العملية لنشر هذه الوحدات في سيناريوهات تشغيل مختلفة. على سبيل المثال، يكشف الاتساق في الأداء بين وضعي الخادم وغير المتصل عبر جميع التكوينات مع وحدات معالجة الرسومات L4 عن موثوقيتها وتعدد استخداماتها.

هذا الجانب ذو صلة بشكل خاص بالشركات والمؤسسات البحثية حيث تختلف السياقات التشغيلية بشكل كبير. علاوة على ذلك، فإن ملاحظاتنا حول التأثير الأدنى لاختناقات التوصيل البيني وكفاءة مزامنة وحدة معالجة الرسومات في إعدادات وحدات معالجة الرسومات المتعددة توفر رؤى قيمة لأولئك الذين يتطلعون إلى توسيع نطاق البنية التحتية للذكاء الاصطناعي الخاصة بهم. تتجاوز هذه الرؤى مجرد أرقام المعايير، وتقدم فهمًا أعمق لكيفية الاستفادة المثلى من هذه الأجهزة في سيناريوهات العالم الحقيقي، وتوجيه قرارات معمارية أفضل واستراتيجيات استثمار في البنية التحتية للذكاء الاصطناعي والحوسبة عالية الأداء (HPC).

أداء تطبيق NVIDIA L4

قارنا أداء NVIDIA L4 الجديدة مقابل NVIDIA A2 و NVIDIA T4 التي سبقتها. لعرض هذا الترقية في الأداء مقارنة بالنماذج السابقة، قمنا بنشر جميع النماذج الثلاثة داخل خادم في مختبرنا، مع Windows Server 2022 وأحدث برامج تشغيل NVIDIA، مستفيدين من مجموعة اختبارات وحدة معالجة الرسومات الكاملة لدينا.

تم اختبار هذه البطاقات على Dell Poweredge R760 بالتكوين التالي:

  • 2 × Intel Xeon Gold 6430 (32 نواة، 2.1 جيجاهرتز)
  • Windows Server 2022
  • NVIDIA Driver 538.15
  • ECC معطل على جميع البطاقات لأخذ عينات 1x
أحدث حالة شركة حول مراجعة NVIDIA L4 GPU معالج الاستنتاج منخفض الطاقة  4

مع بدء اختبار الأداء بين هذه المجموعة من ثلاث وحدات معالجة رسومات للمؤسسات، من المهم ملاحظة الاختلافات الفريدة في الأداء بين طرازي A2 و T4 الأقدم. عندما تم إصدار A2، قدمت تحسينات ملحوظة مثل استهلاك طاقة أقل والعمل على فتحة PCIe Gen4 x8 أصغر، بدلاً من فتحة PCIe Gen3 x16 الأكبر التي كانت تتطلبها T4 الأقدم. سمح لها ذلك بالتركيب في المزيد من الأنظمة، خاصة مع البصمة الأصغر المطلوبة.

Blender OptiX 4.0

Blender OptiX هو تطبيق نمذجة ثلاثية الأبعاد مفتوح المصدر. يمكن تشغيل هذا الاختبار لكل من وحدة المعالجة المركزية ووحدة معالجة الرسومات، ولكننا قمنا فقط بوحدة معالجة الرسومات مثل معظم الاختبارات الأخرى هنا. تم تشغيل هذا المعيار باستخدام أداة Blender Benchmark CLI. النتيجة هي عينات في الدقيقة، حيث الأعلى أفضل.

Blender 4.0
(الأعلى أفضل)
NVIDIA L4 NVIDIA A2 Nvidia T4
GPU Blender CLI - Monster 2,207.765 458.692 850.076
GPU Blender CLI - Junkshop 1,127.829 292.553 517.243
GPU Blender CLI - Classroom 1,111.753 262.387 478.786

 

 

Blackmagic RAW Speed Test

نحن نختبر وحدات المعالجة المركزية ووحدات معالجة الرسومات باستخدام Blackmagic RAW Speed Test الذي يختبر سرعات تشغيل الفيديو. هذا هو اختبار هجين يتضمن أداء وحدة المعالجة المركزية ووحدة معالجة الرسومات لفك تشفير RAW في العالم الحقيقي. يتم عرض هذه كنتائج منفصلة ولكننا نركز فقط على وحدات معالجة الرسومات هنا، لذلك تم حذف نتائج وحدة المعالجة المركزية.

Blackmagic RAW Speed Test
(الأعلى أفضل)
NVIDIA L4 NVIDIA A2 NVIDIA T4
8K CUDA 95 FPS 38 FPS 53 FPS

Cinebench 2024 GPU

Maxon Cinebench 2024 هو معيار عرض ثلاثي الأبعاد لوحدة المعالجة المركزية ووحدة معالجة الرسومات يستخدم جميع نوى وخيوط وحدة المعالجة المركزية. مرة أخرى، نظرًا لأننا نركز على نتائج وحدة معالجة الرسومات، لم نقم بتشغيل أجزاء وحدة المعالجة المركزية من الاختبار. النتائج الأعلى أفضل.

Cinebench 2024
(الأعلى أفضل)
NVIDIA L4 NVIDIA A2 NVIDIA T4
وحدة معالجة الرسومات 15,263 4,006 5,644

GPU PI

GPUPI 3.3.3 هو إصدار من أداة القياس الخفيفة المصممة لحساب π (باي) بالمليارات من المنازل العشرية باستخدام تسريع الأجهزة عبر وحدات معالجة الرسومات ووحدات المعالجة المركزية. تستفيد من قوة الحوسبة لـ OpenCL و CUDA التي تشمل كلاً من وحدات المعالجة المركزية والرسومات. قمنا بتشغيل CUDA فقط على جميع وحدات معالجة الرسومات الثلاث والأرقام هنا هي وقت الحساب بدون إضافة وقت الاختزال. الأقل أفضل.

وقت حساب GPU PI بالثواني
(الأقل أفضل)
NVIDIA L4 NVIDIA A2 NVIDIA T4
GPUPI v3.3 - 1B 3.732 ثانية 19.799 ثانية 7.504 ثانية
GPUPI v3.3 - 32B 244.380 ثانية 1,210.801 ثانية 486.231 ثانية

بينما نظرت النتائج السابقة في تكرار واحد فقط لكل بطاقة، أتيحت لنا أيضًا فرصة للنظر في نشر 5 × NVIDIA L4 داخل Dell PowerEdge T560.

وقت حساب GPU PI بالثواني
(الأقل أفضل)
Dell PowerEdge T560 (2x Xeon Gold 6448Y) مع 5x NVIDIA L4
GPUPI v3.3 - 1B 0 ثانية 850 مللي ثانية
GPUPI v3.3 - 32B 50 ثانية 361 مللي ثانية

 

 

Octanebench

OctaneBench هي أداة قياس لـ OctaneRender، وهو عارض ثلاثي الأبعاد آخر يدعم RTX مشابه لـ V-Ray.

Octane (الأعلى أفضل)
المشهد النواة NVIDIA L4 NVIDIA A2 NVIDIA T4
داخلي قنوات المعلومات 15.59 4.49 6.39
  إضاءة مباشرة 50.85 14.32 21.76
  تتبع المسار 64.02 18.46 25.76
فكرة قنوات المعلومات 9.30 2.77 3.93
  إضاءة مباشرة 39.34 11.53 16.79
  تتبع المسار 48.24 14.21 20.32
ATV قنوات المعلومات 24.38 6.83 9.50
  إضاءة مباشرة 54.86 16.05 21.98
  تتبع المسار 68.98 20.06 27.50
صندوق قنوات المعلومات 12.89 3.88 5.42
  إضاءة مباشرة 48.80 14.59 21.36
  تتبع المسار 54.56 16.51 23.85
النتيجة الإجمالية 491.83 143.71 204.56

 

 

Geekbench 6 GPU

Geekbench 6 هو معيار متعدد المنصات يقيس أداء النظام العام. هناك خيارات اختبار لكل من قياس أداء وحدة المعالجة المركزية ووحدة معالجة الرسومات. النتائج الأعلى أفضل. مرة أخرى، نظرنا فقط في نتائج وحدة معالجة الرسومات.

يمكنك العثور على مقارنات مع أي نظام تريده في متصفح Geekbench.

Geekbench 6.1.0
(الأعلى أفضل)
NVIDIA L4 NVIDIA A2 NVIDIA T4
Geekbench GPU OpenCL 156,224 35,835 83,046

Luxmark

LuxMark هي أداة قياس متعددة المنصات لـ OpenCL من أولئك الذين يحتفظون بمحرك العرض ثلاثي الأبعاد مفتوح المصدر LuxRender. تبحث هذه الأداة في أداء وحدة معالجة الرسومات في النمذجة ثلاثية الأبعاد والإضاءة وأعمال الفيديو. في هذا الاستعراض، استخدمنا أحدث إصدار، v4alpha0. في LuxMark، الأعلى أفضل عندما يتعلق الأمر بالنتيجة.

Luxmark v4.0alpha0
وحدات معالجة الرسومات OpenCL
(الأعلى أفضل)
NVIDIA L4 NVIDIA A2 NVIDIA T4
قاعة المعرض 14,328 3,759 5,893
قاعة الطعام 5,330 1,258 2,033

GROMACS CUDA

قمنا أيضًا بتجميع GROMACS، وهو برنامج ديناميكيات جزيئية، خصيصًا لـ CUDA. تم إجراء هذا التجميع المخصص للاستفادة من قدرات المعالجة المتوازية لوحدات معالجة الرسومات NVIDIA L4 الخمس، وهو أمر ضروري لتسريع المحاكاة الحسابية.

تضمنت العملية استخدام nvcc، مترجم CUDA من NVIDIA، جنبًا إلى جنب مع العديد من التكرارات من علامات التحسين المناسبة لضمان ضبط الثنائيات بشكل صحيح على بنية الخادم. يسمح تضمين دعم CUDA في تجميع GROMACS للبرنامج بالتفاعل مباشرة مع أجهزة وحدة معالجة الرسومات، مما يمكن أن يحسن بشكل كبير أوقات الحساب للمحاكاة المعقدة.

الاختبار: تفاعل البروتين المخصص في Gromacs

بالاستفادة من ملف إدخال مقدم من المجتمع من خادم Discord المتنوع لدينا، والذي احتوى على معلمات وهياكل مصممة لدراسة تفاعل بروتين محدد، بدأنا محاكاة ديناميكيات جزيئية. كانت النتائج رائعة - حقق النظام معدل محاكاة يبلغ 170.268 نانوثانية في اليوم.

وحدة معالجة الرسومات النظام نانوثانية/يوم وقت النواة (ثانية)
NVIDIA A4000 Whitebox AMD Ryzen 5950x 84.415 163,763
RTX NVIDIA 4070 Whitebox AMD Ryzen 7950x3d 131.85 209,692.3
5 × NVIDIA L4 Dell T560 مع 2 × Intel Xeon Gold 6448Y 170.268 608,912.7

أكثر من الذكاء الاصطناعي

في ظل الموجة المتواصلة للابتكار في مشهد الذكاء الاصطناعي اليوم، يعد قياس وفهم قدرات منصات الأجهزة المختلفة أمرًا بالغ الأهمية. لا تتطلب جميع تطبيقات الذكاء الاصطناعي مزارع تدريب ضخمة لوحدات معالجة الرسومات (GPU) - فهناك شريحة حيوية من الذكاء الاصطناعي الاستنتاجي (inferencing AI) تتطلب غالبًا طاقة أقل لوحدات معالجة الرسومات، خاصة على الحافة (edge). في هذا الاستعراض، نفحص العديد من وحدات معالجة الرسومات NVIDIA L4 عبر ثلاثة خوادم Dell مختلفة ومجموعة من أعباء العمل، بما في ذلك MLperf، لتقييم أداء L4.
 
NVIDIA L4
وحدة معالجة الرسومات NVIDIA L4
في جوهرها، تقدم L4 أداءً مذهلاً يبلغ 30.3 تيرافلوبس (teraFLOPs) من FP32، مما يجعلها مثالية للمهام الحسابية عالية الدقة. تمتد قدراتها إلى الحسابات المختلطة الدقة عبر نوى Tensor (Tensor Cores) TF32 و FP16 و BFLOAT16 - وهي ميزات حاسمة لتعزيز كفاءة التعلم العميق. وفقًا لورقة مواصفات L4، يتراوح الأداء في هذه الأوضاع المختلطة الدقة من 60 إلى 121 تيرافلوبس.
 
تتفوق L4 في المهام منخفضة الدقة، حيث تقدم 242.5 تيرافلوبس مع نوى Tensor FP8 و INT8، والتي تعزز بشكل كبير أداء الاستنتاج للشبكات العصبية. بفضل ذاكرة GDDR6 بسعة 24 جيجابايت وعرض نطاق ترددي يبلغ 300 جيجابايت/ثانية، يمكنها التعامل بسهولة مع مجموعات البيانات الكبيرة والنماذج المعقدة. ومع ذلك، فإن ما يميز L4 أكثر هو كفاءتها في استهلاك الطاقة: مع TDP يبلغ 72 واط، فهي مناسبة تمامًا لمجموعة واسعة من بيئات الحوسبة. هذا المزيج من الأداء العالي وكفاءة الذاكرة واستهلاك الطاقة المنخفض يجعل NVIDIA L4 خيارًا مقنعًا لمعالجة تحديات الحوسبة الطرفية.
 
مع وصول الضجة المحيطة بالذكاء الاصطناعي إلى ذروتها، من السهل التركيز فقط على أداء L4 مع نماذج الذكاء الاصطناعي - ولكن لديها بعض الحيل الأخرى في جعبتها، مما يفتح عالمًا من الإمكانيات لتطبيقات الفيديو. يمكن لـ L4 استضافة ما يصل إلى 1040 دفق فيديو AV1 متزامن بدقة 720p30، وهي قدرة يمكن أن تحول كيفية بث المحتوى المباشر لمستخدمي الحافة، وتعزز السرد الإبداعي، وتمكن حالات استخدام مثيرة لتجارب الواقع المعزز/الواقع الافتراضي الغامرة.
 
تتألق NVIDIA L4 أيضًا عندما يتعلق الأمر بتحسين أداء الرسومات، كما يتضح من براعتها في العرض في الوقت الفعلي وتتبع الأشعة. في بيئة مكتبية طرفية، يمكن لـ L4 توفير تسريع قوي وعالي الطاقة للحوسبة الرسومية لـ VDI، وتلبية احتياجات المستخدمين النهائيين الذين يعتمدون على عرض رسومات عالي الجودة في الوقت الفعلي لعملهم.
 
أفكار ختامية
توفر وحدة معالجة الرسومات NVIDIA L4 أساسًا قويًا للذكاء الاصطناعي الطرفي والحوسبة عالية الأداء، وتقدم كفاءة وتعدد استخدامات لا مثيل لهما عبر مجموعة من التطبيقات. إن قدرتها على التعامل مع أعباء عمل الذكاء الاصطناعي المكثفة، أو مهام التسريع، أو خطوط أنابيب الفيديو - جنبًا إلى جنب مع أدائها الرسومي المحسن - تجعلها خيارًا مثاليًا للاستنتاج الطرفي أو تسريع سطح المكتب الافتراضي. يضع المزيج الفريد لـ L4 من قوة الحوسبة العالية وقدرات الذاكرة المتقدمة وكفاءة الطاقة كلاعب رئيسي في دفع تسريع أعباء العمل الطرفية، خاصة في الصناعات التي تتطلب الكثير من الذكاء الاصطناعي والرسومات.
 
أحدث حالة شركة حول مراجعة NVIDIA L4 GPU معالج الاستنتاج منخفض الطاقة  5
 
مكدس NVIDIA L4 الملتوي
لا يمكن إنكار أن الذكاء الاصطناعي في مركز العاصفة الحالية لتكنولوجيا المعلومات، ولا يزال الطلب على وحدات معالجة الرسومات H100/H200 المتطورة في أعلى مستوياته. ومع ذلك، هناك أيضًا دفعة كبيرة لنشر بنية تحتية أكثر قوة لتكنولوجيا المعلومات على الحافة - حيث يتم إنشاء البيانات وتحليلها. في هذه السيناريوهات، هناك حاجة إلى وحدة معالجة رسوما
تفاصيل الاتصال
Beijing Qianxing Jietong Technology Co., Ltd.

اتصل شخص: Ms. Sandy Yang

الهاتف :: 13426366826

إرسال استفسارك مباشرة لنا (0 / 3000)