يدعم نظام ملفات IBM Storage Scale الموازي إدارة ذاكرة التخزين المؤقت KV الموزعة مقترنة مع NVIDIA Dynamo ، وتلبية سيناريوهات استنتاج الذكاء الاصطناعي واسعة النطاق مع أحمال عمل سياقية ضخمة.
أصدرت شركة آي بي إم كتاباً رسمياً بعنوانسياق بلا حدود: منصة كاش KV عالية الأداء لاستدلال الذكاء الاصطناعي واسع النطاق، مما يوفر بنية مرجعية كاملة معتمدة لهذا الحل المشترك. يجمع المجموعة المتكاملة بين خوادم تخزين Supermicro Petascale ، وشبكات NVIDIA Spectrum-X Ethernet ،و IBM Storage Scale Erasure Coding Edition (ECE) لبناء مستوى تخزين مشترك عالي الأداء لاستنتاج الذكاء الاصطناعيوباعتبارها وثائق فنية موثوقة نشرتها IBM ITSO (منظمة الدعم الفني الدولية) ، تقدم IBM Redbooksإرشادات متعمقة لتنفيذ منتجات البنية التحتية لشركة IBM.
وقد شارك في تأليفها فرق الهندسة من IBM و Supermicro و NVIDIA ، ويعالج Redbook نقطة الألم الأساسية لأعباء العمل ذات السياق الطويل.تطبيقات استرداد RAG وأنابيب الوكيل المستقلة تولد بيانات ذاكرة التخزين المؤقت KV ضخمة داخل GPU HBM. بمجرد إزالة البيانات المؤخّرة من موارد HBM المحدودة، سيؤدي إعادة الحساب المتكررة إلى زيادة حادّة في فترة التأخير، مما يجعل تخزين الكاش KV المتبادل المستمر أمرًا لا غنى عنه.
يتبنى الحل بنية تخزين KV التسلسل الهرمي من خمسة مستويات تغطي متطلبات مختلفة للفترة اللاحقة والقدرة:
-
طبقة G1: عقدة GPU المحلية HBM
-
طبقة G2: نظام العقدة المركزية (DRAM)
-
طبقة G3: سد المحلي المرتبط مباشرة
-
G3.5 طبقة: تخزين فلاش مشترك على مستوى البود ، يقدمها NVIDIA BlueField DPUs مع اتصال مباشر إلى GPU server DPUs
-
طبقة G4: تجمع تخزين مشترك خارجي عبر إيثيرنت متصل بجميع خوادم الحوسبة GPU
تغطي التسلسل الهرمي للذاكرة والتخزين من النهاية إلى النهاية، هذا الإعداد متعدد المستويات يوفر استمرارية وتأخير وتدرج السعة.الإخلاء التلقائي وإعادة تحميل البيانات الديناميكية عبر كومة التخزين بأكملها، والتي تتكيف بمرونة مع أنماط الوصول المختلفة لحملات العمل وميزانيات تكاليف البنية التحتية الكلية.
يتم توزيعها على خوادم تخزين Supermicro Petascale ، وتعمل Storage Scale ECE كطبقة ذاكرة التخزين المؤقت البارد G4. تم تحسينها لبيانات ذاكرة التخزين المؤقت KV غير الحساسة للانتظار ،بما في ذلك حالات المحادثة غير النشطة متعددة الدورات، بيانات سياق العميل المشتركة وسجلات الاستعلامات التاريخية التي لا تتطلب استجابة فورية.
وفقًا لنتائج الاختبار المسجلة في الكتاب الأحمر ، فإن هذه الهندسة المعمارية المرجعية جاهزة للإنتاج تسريع بشكل فعال خدمات استنتاج الذكاء الاصطناعي التوليدية والذكاء الاصطناعي العملي.في اختبارات طلب واحد TTFT (Time To First Token) مقارنة مع خوادم GPU مستقلة بدون ذاكرة تخزين KV خارجية، يحافظ النظام المتكامل على TTFT مستقرة بغض النظر عن التغيرات السريعة في الطول.56x تسريعتحت تسلسلات مدخلات 130k رمز ويقضي تماما على تقلبات تأخير الاستدلال الناجمة عن أطوال استدعاء الممتدة.
تحت ضغط استنتاج متعدد المستخدمين في وقت واحد يحقق الحل تحسنًا كبيرًا في الأداء: يرتفع معدل عرض الطلب من 0.19 RPS إلى 4.26 RPS ، مما يمثل22x زيادة في الناتجوفي الوقت نفسه، يقلل إجمالي وقت معالجة 200 طلب استنتاج بنسبة 95%، مما يرفع بكثير كفاءة استخدام معالجة معالجة معالجة معالجة معالجة معالجة معالجة معالجة معالجة معالجة معالجة معالجة معالجة معالجة.
كما يحافظ المكدس على أداء قوي تحت اختبارات الإجهاد الصاخبة القاسية. مع أربعة أطراف عملاء تولد حركة إدخال / إخراج شبكة تنافسية 200 جيجابايت / ثانية ،النظام المتكامل لا يزال يعمل بشكل مستقر عند 3.6 RPS، إنهاء كل 200 طلب استنتاج خلال 55.56 ثانية.أعلى بـ 18 مرةأكثر من بنية إعادة الحوسبة المتعلقة بجهاز المعالجة المركزية (GPU)
وخلص فريق البحث في الكتاب الأحمر إلى: "بالنسبة للشركات التي تهدف إلى تحقيق أقصى قدر من عائد الاستثمار على استثمارات أجهزة GPU باهظة الثمن، توفر هذه الهندسة المعمارية المتكاملة المحققةنهج جاهز للإنتاج لزيادة معدل الإنتاج الاستدلال، خفض فترة تأخير من نهاية إلى نهاية، ودعم تزامن خدمة أعلى، وبناء بنية تحتية استنتاج الذكاء الاصطناعي على نطاق واسع أكثر فعالية من حيث التكلفة.
الكلمات الرئيسية: سوبرمايكرو, IBM Storage Scale, NVIDIA Dynamo
شركة بكين تشيانكسينغ جييتونغ للتكنولوجيا المحدودة
ساندي يانغ مدير الاستراتيجية العالمية
واتساب / ويتشات: +86 13426366826
البريد الإلكتروني: yangyd@qianxingdata.com
الموقع: www.qianxingdata.com/www.storagesserver.com
التركيز على الأعمال:
توزيع منتجات تكنولوجيا المعلومات والاتصالات / تكامل النظام والخدمات / حلول البنية التحتية
مع أكثر من 20 عامًا من الخبرة في توزيع تكنولوجيا المعلومات، نحن نتعاون مع العلامات التجارية العالمية الرائدة لتقديم منتجات موثوقة وخدمات مهنية.
استخدام التكنولوجيا لبناء عالم ذكي مزود خدمة منتجات تكنولوجيا المعلومات والاتصالات الموثوق به