الوجبات السريعة الرئيسية
- إنتاجية غير مسبوقة في عقدة واحدة:يدعم الطراز R7725xd ما يزيد عن 300 جيجابايت/ثانية من النطاق الترددي الداخلي و160 جيجابايت/ثانية عبر NVMe-oF RDMA، مما ينافس مجموعات التخزين متعددة العقد داخل هيكل مكون من وحدتين.
- بنية Gen5 الحقيقية، بدون مفاتيح، بدون مروحة:تتلقى جميع محركات الأقراص ذات الحالة الصلبة 24 Micron 9550 PRO SSD ممرات x4 PCIe Gen5 مخصصة مباشرةً من مجمع وحدة المعالجة المركزية، مما يسمح بقياس معدل الخط دون تنافس.
- مدعوم من سلسلة AMD EPYC 9005:توفر معالجات AMD EPYC 9575F المزدوجة عدد الممرات وعرض النطاق الترددي للذاكرة وطوبولوجيا NUMA اللازمة لإدخال/إخراج عالي التزامن.
- مصمم خصيصًا لأحمال العمل الثقيلة الخاصة بالذكاء الاصطناعي والتحليلات ونقاط التفتيش:يزيل النظام اختناقات الإدخال/الإخراج التي تعطل خطوط أنابيب GPU الحديثة، مما يتيح توصيل البيانات بشكل مستمر وعالي النطاق.
- الذروة: AIO يفتح التوازي الكامل:الذروة: تحافظ مجموعة برامج AIO على هياكل قائمة الانتظار مشبعة تحت التحميل، مما يوفر أداء مؤسسي بنسبة دولار لكل جيجابايت مقنعة.
يقدم قسم التخزين في iDRAC 10 نظرة عامة كاملة على جميع الأقراص الفعلية المثبتة في R7725xd. تعرض لوحة الملخص عددًا عالي المستوى لجميع محركات الأقراص المتصلة، مصحوبًا بمخطط دائري مرئي يوضح حالات محرك الأقراص. في هذا التكوين، يكون 24 محرك أقراص NVMe SSD نشطًا ويتم الإبلاغ عن جاهزيته، مع وجود جهازي تمهيد إضافيين في النظام، منفصلين عن بنك NVMe الأمامي الأساسي.
على اليمين، تقوم لوحة ملخص الأقراص بتقسيمها إلى أقراص فعلية وأي أقراص افتراضية مرتبطة بها. نظرًا لأن R7725xd يستخدم بنية NVMe مباشرة بدون وحدات تحكم RAID التقليدية، يتم الإبلاغ عن جميع محركات الأقراص على أنها غير RAID وقابلة للتوجيه بشكل فردي، بما يتماشى مع تصميم النظام لمجموعات NVMe الكبيرة ومنصات SDS.
أسفل ملخص الحالة، تسرد منطقة أحداث التخزين المسجلة مؤخرًا سجلات الإدراج لكل محرك أقراص PCIe SSD، مرتبة حسب الفتحة والفتحة. يؤكد هذا السجل الاكتشاف الصحيح عبر جميع فتحات محرك الأقراص ويساعد في تحديد أي مشكلات تتعلق بالمقاعد أو الكابلات أو نشاط التبديل السريع. بالنسبة لعمليات النشر الكبيرة، تكون هذه السجلات مفيدة عند تتبع توفير محرك الأقراص أو التحقق من ملء السعة كما هو متوقع.
تُظهر لقطة الشاشة النهائية العرض التفصيلي لجهاز NVMe داخل iDRAC10. يتم إدراج كل محرك أقراص NVMe مثبت في النظام مع حالته وسعته وموقعه. يؤدي اختيار محرك فردي إلى فتح تفصيل كامل لخصائصه.
في هذا المثال، تعرض لوحة معلومات محرك الأقراص سلسلة الطراز الكاملة وبروتوكول الجهاز وعامل الشكل وإعدادات PCIe التي تم التفاوض عليها. تعمل أجهزة NVMe بسرعة ارتباط تبلغ 32 GT/s مع اتصال x4 متفاوض عليه، مما يؤكد أن محركات الأقراص تعمل بنطاق ترددي كامل على اللوحة الإلكترونية المعززة PCIe Gen5 للنظام. يقوم قسم المعلومات أيضًا بالإبلاغ عن نسبة التحمل وحالة الغيار المتوفرة ونوع البروتوكول، مما يساعد المسؤولين على مراقبة صحة المحرك وتوقعات دورة الحياة.
تعد تقارير محرك الأقراص الدقيقة هذه ذات قيمة في تكوينات NVMe عالية الكثافة حيث يؤثر عرض الارتباط والسرعة المتفاوض عليها وصحة الوسائط بشكل مباشر على سلوك عبء العمل وأداء التخزين.
بشكل عام، توفر واجهة iDRAC 10 رؤية واضحة تتمحور حول الأجهزة لبنية تخزين NVMe الخاصة بالطراز R7725xd، مما يتيح التحقق بسهولة من صحة الارتباط وحالة محرك الأقراص وسلامة النظام في لمحة واحدة.
أداء الطراز PowerEdge R7725xd من Dell
قبل الاختبار، تم تكوين نظامنا باستخدام تحميل متوازن وعالي الأداء. تم تجهيز النظام بمعالجين AMD EPYC 9575F، يتميز كل منهما بـ 64 نواة عالية التردد، ومقترنة بـ 24 وحدة ذاكرة DDR5 DIMM بسعة 32 جيجابايت تعمل بسرعة 6400 MT/s. للتخزين، تم تجهيز الهيكل بالكامل بـ 24 محرك أقراص Micron 9550 PRO U.2 NVMe SSD سعة 15.36 تيرابايت، كل منها متصل من خلال رابط PCIe Gen5 x4 مخصص. يوفر هذا سعة خام إجمالية تبلغ 368.64 تيرابايت، وتوفر محركات Micron 9550 PRO سرعات قراءة متسلسلة تصل إلى 14000 ميجابايت/ثانية وسرعات كتابة متسلسلة تصل إلى 10000 ميجابايت/ثانية. يتم التعامل مع الشبكات من خلال أربعة محولات Broadcom BCM57608 التي توفر ثمانية منافذ مدمجة بسرعة 200 جيجابت، بالإضافة إلى BCM57412 OCP NIC الذي يوفر منفذين إضافيين بسرعة 10 جيجابت.
مواصفات نظام الاختبار
- وحدة المعالجة المركزية:2x معالجات AMD EPYC 9575F 64-Core عالية التردد
- ذاكرة:24x32 جيجا بايت DDR5 @ 6400MT/s
- تخزين:24 محرك أقراص Micron 9550 PRO U.2 سعة 15.36 تيرابايت (متصلة في 4 ممرات PCIe Gen5 لكل منها)؛ يدعم ما يصل إلى 128 تيرابايت من محركات الأقراص اليوم بسعات أعلى في الأفق
- شبكة:4x بطاقات NIC من Broadcom BCM57608 2x200G، و1x BCM57412 2x10Gb OCP NIC
- يُحوّل:ديل باور سويتش Z9664
معيار أداء FIO
لقياس أداء التخزين للطراز PowerEdge R7725xd، استخدمنا مقاييس متوافقة مع معايير الصناعة وأداة FIO. في هذا القسم، نركز على معايير FIO التالية:
- عشوائية 4K - 1M
- متسلسل 4K - 1M
FIO – محلي – عرض النطاق الترددي
عند اختبار الوصول المحلي إلى محركات أقراص PCIe Gen5 NVMe الـ 24 الموجودة داخل الطراز PowerEdge R7725xd من Dell، يعرض النظام بالضبط ما تتوقعه من منصة يتم فيها توصيل كل محرك أقراص بوحدات المعالجة المركزية (CPUs) باستخدام رابط PCIe Gen5 كامل المسار بسرعة x4. مع عدم وجود طبقة شبكة، فإن هذا هو الإنتاجية الداخلية النقية لتخطيط تخزين Dell Gen5 وعرض النطاق الترددي PCIe الخاص بمنصة AMD EPYC التي تعمل دون قيود.
تبدأ القراءات المتسلسلة بسرعة 184 جيجابايت/ثانية مع كتل بدقة 4K وتتدرج بسرعة مع زيادة حجم الكتلة. من 512 كيلو بايت إلى 1 ميجا بايت، يحافظ الخادم على سرعة ثابتة تتراوح من 312 إلى 314 جيجابايت/ثانية، وهو مؤشر قوي على مدى قدرة النظام على تجميع جميع مسارات 24 × 4 Gen5 في عرض نطاق ترددي مستدام للقراءة دون أي اختناقات في مرحلة التحكم.
تتبع عمليات الكتابة المتسلسلة منحنى مختلفًا ولكنها تظل ثابتة في النطاق المتوقع. بدءًا من 149 جيجابايت/ثانية، ترتفع النتائج حتى منتصف المائة وتصل إلى 182 جيجابايت/ثانية عند المليون. يتماشى هذا مع سلوك الكتابة لمحركات الأقراص Micron 9550 PRO SSDs والحمل المتأصل في كتابة NVMe عالية التوازي عبر العديد من الأجهزة المستقلة.
يعد أداء القراءة العشوائية ميزة أخرى. يحقق النظام سرعات تقارب 300 جيجابايت/ثانية عند أصغر أحجام الكتل، وتنخفض قليلاً في النطاق المتوسط، ثم تتعافى إلى 200 ثانية وأدنى 300 ثانية عند أحجام كتلة أكبر. عند 1 مليون، تصل القراءات العشوائية إلى حد أقصى يبلغ 318 جيجابايت/ثانية، مما يوضح قدرة النظام الأساسي على توزيع العمليات المختلطة بالتساوي عبر جميع محركات الأقراص الـ 24.
تأتي عمليات الكتابة العشوائية بمعدل أقل، وهو أمر نموذجي بالنسبة لبيانات التعريف المتفرقة ومهام تخصيص الكتابة عبر مجموعة NVMe واسعة. تظل النتائج في نطاق 140 إلى 160 جيجابايت/ثانية لمعظم الاختبارات وتتناقص إلى ما يقل قليلاً عن 100 جيجابايت/ثانية عند 1 ميجابايت.
FIO – محلي – IOPS
عند فحص جانب IOPS، يُظهر الطراز R7725xd أداءً قويًا للكتل الصغيرة، مع وصول معدلات الطلب إلى عشرات الملايين قبل أن تعمل أحجام الكتل الأكبر على تحويل عبء العمل نحو ملف تعريف يعتمد على النطاق الترددي.
عند دقة 4K، تصل القراءات إلى 44.9 مليون IOPS والكتابة تصل إلى 36.3 مليونًا. تصل القراءات العشوائية إلى مستويات أعلى تبلغ 71.4 مليون عملية IOPS، مما يوضح قدرة النظام على توزيع أحمال العمل ذات قائمة الانتظار العالية بكفاءة عبر جميع محركات الأقراص. تتناقص هذه القيم بشكل طبيعي مع زيادة أحجام الكتل، لكن التقدم يظل ثابتًا خلال نطاقات 8K و16K و32K.
بواسطة 16 ألف و32 ألف كتلة، تستقر القراءات عند 17.4 مليون و8.35 مليون IOPS، مع قراءات عشوائية تتطابق بشكل وثيق عند 16.5 مليون و8.15 مليون. تتبع عمليات الكتابة النمط المتوقع، وتتبع مستوى أقل ولكنها تظل مستقرة عبر أنماط الوصول التسلسلية والعشوائية.
ومع انتقالنا إلى 64 كيلو بايت وما فوق، ينتقل الاختبار من IOPS النقي إلى سيناريو أكثر تقييدًا بعرض النطاق الترددي. يقع IOPS في نطاق المليون المنخفض وفي النهاية يصل إلى مئات الآلاف. عند حجم كتلة يبلغ 1 مليون، تصل قراءة IOPS إلى حوالي 300 ألف، وتكتب عند حوالي 174 ألف، وتنتهي العمليات العشوائية في نفس الحي.
بشكل عام، تظهر نتائج عمليات IOPS المحلية بوضوح قدرة النظام على تحمل أعباء عمل عالية جدًا في قائمة الانتظار عبر الكتل الصغيرة، مع قياس يمكن التنبؤ به مع نمو عمليات النقل ويصبح عرض النطاق الترددي هو العامل المهيمن.
الذروة:AIO: لماذا يناسب الطراز PowerEdge R7725xd من Dell عبء العمل هذا
PEAK: تم تصميم AIO للبيئات التي تتطلب وصولاً سريعًا للغاية وبزمن وصول منخفض إلى مجموعات البيانات الكبيرة، عادةً لتدريب الذكاء الاصطناعي وخطوط الاستدلال والنمذجة المالية والتحليلات في الوقت الفعلي. تزدهر المنصة من خلال تخزين NVMe الكثيف، وعرض النطاق الترددي المتوازن لـ PCIe، ووقت الاستجابة المتوقع على نطاق واسع. لتلبية هذه المتطلبات، يجب أن توفر الأجهزة الأساسية إنتاجية مستدامة مع الحفاظ على أداء ثابت وقابل للتكرار في ظل الأحمال الثقيلة المتزامنة.
هذا هو المكان الذي يتوافق فيه الطراز PowerEdge R7725xd من Dell بشكل طبيعي مع PEAK:AIO. تم تصميم بنية النظام لتعظيم موارد PCIe Gen5، مما يعرض النطاق الترددي الكامل لـ 24 فتحة U.2 NVMe المثبتة في الأمام مباشرة إلى وحدات المعالجة المركزية، دون الاعتماد على وحدات تحكم RAID التقليدية. يمنح هذا التخطيط PEAK:AIO ملف تعريف التوازي وزمن الوصول الذي تتوقعه من خطوط أنابيب البيانات الحديثة المستندة إلى NVMe. قام تكوين النظام بتقسيم محركات أقراص NVMe SSD إلى مجموعتين RAID0.
في السيناريو الذي تم اختباره، استخدمنا نظامين عميلين متصلين بـ R7725xd، كل منهما مجهز ببطاقات NIC من Broadcom BCM57608 2x 200G. وقد أدى ذلك إلى إنشاء ما مجموعه أربعة وصلات صاعدة بسرعة 200 جيجا بايت تغذي كل عميل، مما دفع R7725xd إلى تكوين واقعي عالي الأداء يعكس ما تراه عمليات نشر PEAK:AIO في الإنتاج. لقد منحنا هذا المستوى من عرض النطاق الترددي للشبكة مساحة كبيرة للتركيز بشكل كامل على نظام NVMe الفرعي وطوبولوجيا PCIe والوصلات البينية لوحدة المعالجة المركزية دون اختناق في طبقة NIC.
والنتيجة هي منصة تتوافق بشكل فعال مع أحمال عمل PEAK:AIO. يوفر الطراز R7725xd سعة NVMe كثيفة، وإنتاجية PCIe Gen5، ومعالجات AMD EPYC 9005 المزدوجة للتوازي، وقدرة الشبكة على الحفاظ على استيعاب بيانات العملاء المتعددين بمئات الجيجابايت لكل عميل. تعتبر كل هذه الخصائص أساسية لتحقيق توقعات أداء PEAK:AIO.
الذروة: AIO – NVMe-oF RDMA – عرض النطاق الترددي
من خلال فحص نتائج النطاق الترددي NVMe-oF RDMA على الطراز PowerEdge R7725xd المزود بـ PEAK:AIO، فإن الاتجاه العام هو بالضبط ما نتوقعه من نظام يتمتع بهذا القدر الكبير من عرض النطاق الترددي لـ PCIe والشبكة. ومع زيادة حجم الكتلة، ترتفع الإنتاجية بسرعة حتى تستقر بالقرب من الحد العملي للمنصة.
في أحجام الكتل الصغيرة، يبدأ الأداء في نطاق منتصف 20 جيجابايت/ثانية لكل من القراءة والكتابة، وهو أمر طبيعي لأن عمليات النقل بدقة 4K و8K تدفع مسار IOPS بقوة أكبر بكثير من مسار الإنتاجية. بمجرد وصولنا إلى الكتلتين 16K و32K، ينفتح خط الأنابيب. تقفز القراءات إلى حوالي 154 جيجابايت/ثانية بسرعة 32 ألف وتستمر في الصعود إلى نطاق 160 جيجابايت/ثانية، وهو المكان الصحيح الذي نتوقع فيه وصول إعداد عميل مزدوج لأكثر من أربعة روابط بسرعة 200 جيجابايت/ثانية.
أداء القراءة العشوائية يعكس التسلسل بشكل مثالي تقريبًا. الذروة: يقوم AIO بعمل رائع في الحفاظ على تغذية قوائم انتظار الأوامر، لذا فإن عرض النطاق الترددي للقراءة العشوائية يتتبع بشكل أساسي عرض النطاق الترددي للقراءة التسلسلية على طول الطريق، ويستقر عند 159 إلى 161 جيجابايت/ثانية تقريبًا من 32 كيلو بايت إلى 1 ميجا بايت. ويشير هذا إلى أن حزمة التخزين لا تعاني من اختناقات في ظل أنماط الوصول المختلطة، وأن طوبولوجيا PCIe الخاصة بالموديل R7725xd تقوم بتوزيع الحمل بالتساوي عبر محركات أقراص Gen5 NVMe الـ 24.
يتبع أداء الكتابة منحنى مماثل، على الرغم من أنه يتصدر مستوى أقل قليلاً من القراءة. تظل عمليات الكتابة المتسلسلة في نطاق 140 إلى 148 جيجابايت/ثانية من خلال الكتل متوسطة الحجم، وتنخفض إلى حوالي 117 جيجابايت/ثانية عند 128 كيلو بايت ولكنها تتعافى مع زيادة حجم الكتلة. تتصرف عمليات الكتابة العشوائية بشكل مختلف وتتسطح بسرعة أقرب إلى 110-117 جيجابايت/ثانية، وهو أمر طبيعي بالنسبة لأحمال العمل ذات قوائم الانتظار المختلطة التي تؤدي إلى حمل إضافي.
الفكرة الأساسية من هذا القسم هي أن الطراز R7725xd لا يواجه أي مشكلة في الحفاظ على عرض نطاق ترددي عالٍ للغاية عبر NVMe-oF، حتى مع قيام العديد من العملاء بقيادة النظام إلى أقصى حدوده. بمجرد وصول أحجام الكتل إلى 32 كيلو بايت أو أعلى، يقوم الخادم بإشباع الشبكة المتوفرة وعرض النطاق الترددي للتخزين باستمرار. هذا هو بالضبط نوع الأداء الذي تم تصميم PEAK:AIO لاستخراجه، مما يجعل هذه النتائج بمثابة التحقق القوي من قدرة النظام الأساسي على التوسع في ظل ظروف العالم الحقيقي.
ذروة AIO – NVMe-oF RDMA IOPS
من ناحية IOPS، يُظهر الطراز PowerEdge R7725xd أداءً قويًا للكتلة الصغيرة، على الرغم من أننا لاحظنا في البداية أرقامًا أقل من المتوقع؛ ومن المتوقع أن تتم معالجة هذه المشكلة من خلال دعم برنامج تشغيل الشبكة المحسّن في المستقبل. وحتى مع وجود ذلك قيد التشغيل، يظهر اتجاه القياس العام تمامًا كما يتصرف NVMe-oF RDMA عادةً عندما يزيد حجم الكتلة.
عند أصغر حجم للكتلة، يمكن للنظام تقديم أكثر من 6 ملايين عملية IOPS عبر أحمال العمل التسلسلية والعشوائية. القراءة والكتابة والقراءة العشوائية والكتابة العشوائية جميعها تقع في نفس النطاق تقريبًا عند 4K و8K، مما يشير إلى أن عملاء الواجهة الأمامية والبنية التحتية PCIe ومحركات NVMe نفسها لا يواجهون مشكلة في مواكبة معدل الطلب.
مع نمو أحجام الكتل، يبدأ الانخفاض المتوقع في IOPS. عند 32 ألفًا، تصل القراءة إلى حوالي 4.7 مليون IOPS، بينما تتأخر الكتابة قليلاً عند حوالي 4.4 مليون. تحقق عمليات الكتابة العشوائية أكبر ضربة هنا، حيث تنخفض إلى ما يقرب من 3.3 مليون عملية IOPS، والتي تتوافق مع قائمة الانتظار الإضافية وعبء وحدة المعالجة المركزية التي تقدمها أنماط الوصول المختلط.
بالانتقال إلى الكتل الكبيرة، يستمر IOPS في التناقص بطريقة خطية يمكن التنبؤ بها. بحلول الوقت الذي نصل فيه إلى 256 ألفًا و512 ألف عملية نقل، تصبح الإنتاجية هي المقياس السائد، وتنخفض عمليات IOPS بشكل طبيعي إلى منتصف مئات الآلاف. عند حجم كتلة يبلغ 1 ميجا، تتقارب جميع أحمال العمل إلى 140 كيلو - 153 كيلو بايت في الثانية، بما يتوافق مع أرقام النطاق الترددي التي رأيناها في القسم السابق.
أداء التخزين GPUDirect
أحد الاختبارات التي أجريناها على R7725xd كان اختبار Magnum IO GPUDirect Storage (GDS). GDS هي ميزة تم تطويرها بواسطة NVIDIA وتسمح لوحدات معالجة الرسومات بتجاوز وحدة المعالجة المركزية عند الوصول إلى البيانات المخزنة على محركات أقراص NVMe أو أجهزة التخزين الأخرى عالية السرعة. بدلاً من توجيه البيانات عبر وحدة المعالجة المركزية وذاكرة النظام، يتيح نظام التوزيع العالمي (GDS) الاتصال المباشر بين وحدة معالجة الرسومات وجهاز التخزين، مما يقلل بشكل كبير من زمن الوصول ويحسن إنتاجية البيانات.
كيف يعمل التخزين GPUDirect
تقليديًا، عندما تقوم وحدة معالجة الرسومات بمعالجة البيانات المخزنة على محرك أقراص NVMe، يجب أن تنتقل البيانات أولاً عبر وحدة المعالجة المركزية وذاكرة النظام قبل الوصول إلى وحدة معالجة الرسومات. تؤدي هذه العملية إلى حدوث اختناقات، حيث تصبح وحدة المعالجة المركزية وسيطًا، مما يضيف زمن الوصول ويستهلك موارد النظام القيمة. يعمل GPUDirect Storage على التخلص من عدم الكفاءة هذا من خلال تمكين GPU من الوصول إلى البيانات مباشرة من جهاز التخزين عبر ناقل PCIe. يعمل هذا المسار المباشر على تقليل الحمل الزائد لنقل البيانات، مما يتيح عمليات نقل بيانات أسرع وأكثر كفاءة.
إن أعباء عمل الذكاء الاصطناعي، وخاصة تلك التي تتضمن التعلم العميق، تستهلك قدرًا كبيرًا من البيانات. يتطلب تدريب الشبكات العصبية الكبيرة معالجة تيرابايت من البيانات، وأي تأخير في نقل البيانات يمكن أن يؤدي إلى عدم استخدام وحدات معالجة الرسومات بشكل كافٍ وأوقات تدريب أطول. يعالج GPUDirect Storage هذا التحدي من خلال ضمان تسليم البيانات إلى وحدة معالجة الرسومات في أسرع وقت ممكن، مما يقلل من وقت الخمول ويزيد من الكفاءة الحسابية.
بالإضافة إلى ذلك، يعد GDS مفيدًا بشكل خاص لأحمال العمل التي تتضمن تدفق مجموعات كبيرة من البيانات، مثل معالجة الفيديو أو معالجة اللغة الطبيعية أو الاستدلال في الوقت الفعلي. ومن خلال تقليل الاعتماد على وحدة المعالجة المركزية، يعمل نظام التوزيع العالمي على تسريع حركة البيانات وتحرير موارد وحدة المعالجة المركزية للقيام بمهام أخرى، مما يعزز الأداء العام للنظام.
وبعيدًا عن النطاق الترددي الأولي، توفر تقنية GPUDirect المزودة بـ NVMe-oF (TCP/RDMA) أيضًا عمليات إدخال/إخراج ذات زمن وصول منخفض للغاية. ويضمن هذا عدم تعطش وحدات معالجة الرسومات للبيانات أبدًا، مما يجعل النظام مثاليًا لاستدلال الذكاء الاصطناعي في الوقت الفعلي، وخطوط التحليلات، وإعادة تشغيل الفيديو.
GDSIO قراءة تسلسلية
عند فحص PEAK:AIO مع عميل واحد يستخدم GDSIO، يُظهر معدل نقل القراءة نمطًا واضحًا للقياس مع زيادة حجم الكتلة وعدد الخيوط. تم توصيل هذا العميل الفردي عبر وصلتين بسرعة 400 جيجا، مما يحد من إجمالي إمكاناته إلى 90 جيجابايت/ثانية.
في أصغر أحجام الكتل وعدد الخيوط المنخفض، يكون الأداء متواضعًا، حيث تبدأ القراءات بدقة 4K بحوالي 189 ميجابايت/ثانية في موضوع واحد. بمجرد أن نزيد توازي الخيوط، يستجيب النظام على الفور، ويدفع 691 ميجا بايت/ثانية في أربعة سلاسل ويقتحم نطاق متعدد جيجا بايت/ثانية بينما نخطو إلى كتل أكبر.
تُظهر أحجام الكتل متوسطة المدى أقوى حساسية لعدد الخيوط. عند 32 كيلو بايت، تنمو الإنتاجية من 1.3 جيجا بايت/ثانية في موضوع واحد إلى ما يقرب من 20 جيجا بايت/ثانية بمقدار 64 موضوعًا، مع تناقص طفيف فقط بعد ذلك. يظهر نمط مشابه عند 64 كيلو بايت و128 كيلو بايت، حيث ينتقل النظام من جيجا بايت/ثانية منخفضة مكونة من رقم واحد بتوازي منخفض إلى أكثر من 30 جيجا بايت/ثانية مع توسع عبء العمل.
بمجرد أن نصل إلى أحجام الكتل الأكبر، تبدأ الإنتاجية في الاستقرار مع اقتراب النظام من سقف الأداء الخاص به لعميل واحد. عند 1 MiB، يرتفع الأداء من 11GiB/s في مؤشر ترابط واحد إلى حوالي 88GiB/s في عدد الخيوط المرتفع. تظهر عمليات نقل 5 MiB و10 MiB نفس المستوى، حيث تصل إلى حوالي 89-90GiB/s بغض النظر عما إذا كان الاختبار يعمل عند 64 أو 128 أو 256 موضوعًا.
GDSIO كتابة تسلسلية
من ناحية الكتابة، يتبع سلوك القياس نمطًا مشابهًا للقراءات، ولكن مع أداء أقل قليلاً عبر معظم أحجام الكتل، وهو أمر متوقع لأحمال عمل الكتابة المتسلسلة. في أصغر أحجام الكتل، تبدأ الإنتاجية عند 165 ميجابايت/ثانية لخيط واحد بسرعة 4K وترتفع بشكل مطرد مع زيادة التوازي. عند أربعة سلاسل، ينمو ذلك إلى ما يزيد قليلاً عن 619 ميجا بايت/ثانية قبل أن يتجاوز 1 جيجا بايت/ثانية عند ثمانية سلاسل.
تُظهر أحجام الكتل متوسطة المدى مكاسب أقوى مع ارتفاع عدد الخيوط. عند 32 كيلو بايت، تبدأ الإنتاجية بأقل من 1 جيجا بايت/ ثانية وتتدرج إلى أكثر من 21 جيجا بايت / ثانية عند مستويات الخيوط الأعلى. يستمر النطاقان 64K و128K في هذا الاتجاه، حيث ينتقلان من رقم واحد منخفض GiB/s إلى منتصف 30 GiB/s و50 GiB/s حيث يصبح عبء العمل أكثر توازيًا.
تتم عمليات النقل الأكبر عندما يستقر النظام في سقف إنتاجية الكتابة الطبيعية. عند 1 MiB، يرتفع الأداء من 13.3GiB/s في مؤشر ترابط واحد إلى ما يقل قليلاً عن 90GiB/s في أعداد الخيوط العالية. تتبع اختبارات 5 MiB و10 MiB نمطًا مشابهًا، حيث تصل النتائج إلى ذروتها حوالي 90 GiB/s بغض النظر عما إذا كان النظام يعمل على 64 أو 128 أو 256 موضوعًا.
إعادة تعريف الأداء في عصر Gen5
اتصل شخص: Ms. Sandy Yang
الهاتف :: 13426366826



