راه حل فنی سوئیچ InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0

April 15, 2026

راه حل فنی سوئیچ InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0

1. پیش‌زمینه پروژه و تجزیه و تحلیل الزامات

خوشه‌های مدرن آموزش هوش مصنوعی و محیط‌های محاسباتی با کارایی بالا (HPC) با یک چالش مقیاس‌پذیری مشترک روبرو هستند: با افزایش تعداد GPUها و تراکم محاسباتی، شبکه‌های اترنت سنتی به دلیل سربار TCP/IP، از دست دادن بسته‌ها و تأخیر غیرقابل پیش‌بینی در انتهای طیف، به گلوگاه اصلی تبدیل می‌شوند. برای بارهای کاری که به RDMA (دسترسی مستقیم حافظه از راه دور) متکی هستند، حتی لرزش در حد میکروثانیه می‌تواند بهره‌وری مؤثر GPU را 30-40٪ کاهش دهد. سوئیچ InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 مستقیماً این چالش‌ها را با ارائه یک شبکه بدون اتلاف و قطعی که برای عملیات جمعی، الگوریتم‌های all-reduce و ارتباطات MPI با فرکانس بالا بهینه شده است، برطرف می‌کند.

الزامات کلیدی برای شبکه‌های نسل بعدی هوش مصنوعی/HPC شامل موارد زیر است: تأخیر سوئیچینگ زیر میکروثانیه، پشتیبانی از سرعت‌های 400 گیگابیت بر ثانیه NDR، محاسبات درون شبکه‌ای مبتنی بر سخت‌افزار (SHARP v2) و سازگاری کامل با عقب‌گرد با زیرساخت HDR موجود. 920-9B210-00FN-0D0 تمام این معیارها را برآورده می‌کند و در عین حال قابلیت مدیریت و تله‌متری در سطح سازمانی را نیز ارائه می‌دهد.

2. طراحی کلی معماری شبکه و سیستم

معماری پیشنهادی بر روی یک توپولوژی دو لایه fat-tree (spine-leaf) متمرکز است که پهنای باند کامل دو نیمه و تأخیر قطعی را برای الگوهای ارتباطی all-to-all که معمولاً در آموزش توزیع شده وجود دارد، فراهم می‌کند. لایه spine از سوئیچ‌های NVIDIA Mellanox 920-9B210-00FN-0D0 تشکیل شده است که هر کدام به عنوان یک ستون فقرات شبکه NDR عمل می‌کنند. سوئیچ‌های Leaf (مانند سری QM9700) از طریق آداپتورهای ConnectX-7 یا BlueField-3 به گره‌های محاسباتی متصل می‌شوند، در حالی که اتصالات بالایی به ستون فقرات با سرعت 400 گیگابیت بر ثانیه NDR اجرا می‌شوند.

برای استقرار در مقیاس بزرگ بیش از 2000 GPU، می‌توان یک معماری سه لایه (core-aggregation-access) پیاده‌سازی کرد، که در آن واحدهای 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR هم به عنوان سوئیچ‌های هسته و هم به عنوان سوئیچ‌های تجمیع کننده عمل می‌کنند. این طراحی مقیاس‌پذیری عملکرد خطی را تضمین می‌کند و از توسعه آینده به NDR200 (800 گیگابیت بر ثانیه) بدون نیاز به ارتقاء کامل پشتیبانی می‌کند. 920-9B210-00FN-0D0 InfiniBand switch OPN رسمی، خرید چند سایتی را ساده می‌کند و سازگاری سفت‌افزار را در سراسر شبکه تضمین می‌کند.

3. نقش و ویژگی‌های کلیدی 920-9B210-00FN-0D0 در راه‌حل

920-9B210-00FN-0D0 به عنوان عنصر ستون فقرات/هسته با کارایی بالا در شبکه InfiniBand عمل می‌کند. قابلیت‌های کلیدی آن عبارتند از:

  • تراکم پورت 400 گیگابیت بر ثانیه NDR: هر سوئیچ 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR تا 32 پورت 400 گیگابیت بر ثانیه را ارائه می‌دهد و از فرستنده‌های نوری و مسی برای کابل‌کشی انعطاف‌پذیر تا 500 متر (تک حالته) پشتیبانی می‌کند.
  • محاسبات درون شبکه‌ای (SHARP v2): عملیات all-reduce شتاب‌دهنده سخت‌افزاری، زمان ارتباط جمعی را تا 8 برابر برای بارهای کاری آموزش هوش مصنوعی کاهش می‌دهد و مستقیماً بهره‌وری GPU را بهبود می‌بخشد.
  • مسیریابی تطبیقی و کنترل ازدحام: انتخاب مسیر پویا از تشکیل نقاط داغ جلوگیری می‌کند و تأخیر قطعی را تحت الگوهای ترافیک incast تضمین می‌کند.
  • جایگزین RDMA over Converged Ethernet (RoCE): برخلاف RoCE، InfiniBand بومی در 920-9B210-00FN-0D0 نیازی به پیکربندی PFC ندارد و عملکرد پایدار را حتی در 95٪ استفاده از لینک ارائه می‌دهد.

مهندسان می‌توانند برای جزئیات توان (معمولاً 350 وات)، حرارتی و تأخیر (تأخیر سوئیچینگ زیر 200 نانوثانیه) به 920-9B210-00FN-0D0 datasheet و 920-9B210-00FN-0D0 specifications مراجعه کنند. این سوئیچ کاملاً 920-9B210-00FN-0D0 compatible با تمام نقاط پایانی اصلی NVIDIA InfiniBand و اپتیک‌های NDR شخص ثالث است.

4. توصیه‌های استقرار و مقیاس‌پذیری (نمونه‌های توپولوژی)

کلاستر کوچک (128-256 GPU): یک ستون فقرات واحد از 2 سوئیچ 920-9B210-00FN-0D0 که هر کدام به 8-16 سوئیچ Leaf متصل می‌شوند. پهنای باند کامل دو نیمه و افزونگی را فراهم می‌کند. کلاستر متوسط (512-1024 GPU): چهار سوئیچ ستون فقرات در یک پیکربندی بدون مسدود کننده، که هر سوئیچ Leaf دارای 4 اتصال بالایی (2 عدد در هر ستون فقرات) است. این توپولوژی تضمین می‌کند که هیچ لینکی تحت ترافیک اوج بیش از 80٪ استفاده نشود. کلاستر بزرگ (2048+ GPU): لایه هسته از 8 سوئیچ NVIDIA Mellanox 920-9B210-00FN-0D0، لایه تجمیع کننده با استفاده از همین مدل، و لایه دسترسی با سری QM9700. تمام اتصالات متقابل با سرعت 400 گیگابیت بر ثانیه NDR، با آمادگی اختیاری NDR200.

برای سازمان‌هایی که هزینه را ارزیابی می‌کنند، 920-9B210-00FN-0D0 price در مقایسه با سوئیچ‌های اترنت رده بالا، با در نظر گرفتن کل هزینه مالکیت (TCO)، رقابتی است. واحدها به صورت 920-9B210-00FN-0D0 for sale از طریق شبکه توزیع مجاز NVIDIA در دسترس هستند، با زمان تحویل معمول 4-6 هفته.

5. عملیات، نظارت، عیب‌یابی و بهینه‌سازی

مدیریت از طریق NVIDIA Unified Fabric Manager (UFM) متمرکز می‌شود که تله‌متری بی‌درنگ، تجزیه و تحلیل شکست پیش‌بینی‌کننده و اصلاح خودکار را ارائه می‌دهد. شیوه‌های عملیاتی کلیدی برای 920-9B210-00FN-0D0 InfiniBand switch OPN solution شامل موارد زیر است:

  • خطوط پایه عملکرد: از نقشه‌های حرارتی تأخیر UFM برای شناسایی میکرو-انفجارها استفاده کنید. 920-9B210-00FN-0D0 specifications شمارنده‌های سخت‌افزاری برای نشانه‌های ECN و اشغال بافر را تأیید می‌کنند.
  • مدیریت سفت‌افزار: تمام واحدها را در یک شاخه سفت‌افزار NDR نگه دارید. 920-9B210-00FN-0D0 datasheet شامل ماتریس سازگاری برای ConnectX-7 و BlueField-3 است.
  • سناریوهای خطا: منابع تغذیه و ماژول‌های فن افزونه امکان افزونگی N+1 را فراهم می‌کنند. UFM می‌تواند به طور خودکار ترافیک را در اطراف لینک‌ها یا سوئیچ‌های معیوب مجدداً مسیریابی کند.
  • نکات بهینه‌سازی: مسیریابی تطبیقی را در تمام پورت‌های ستون فقرات فعال کنید؛ فریم‌های مکث جهانی را غیرفعال کنید؛ SHARP را برای بارهای کاری با شدت all-reduce پیکربندی کنید؛ از شناسه‌های 920-9B210-00FN-0D0 InfiniBand switch OPN برای نگاشت پورت‌های فیزیکی به نقش‌های منطقی استفاده کنید.

6. خلاصه و ارزیابی ارزش

Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 یک بلوک ساختمانی اساسی برای شبکه‌های هوش مصنوعی و HPC با کارایی بالا را نشان می‌دهد. با ارائه پهنای باند 400 گیگابیت بر ثانیه NDR، تأخیر سوئیچینگ زیر میکروثانیه و محاسبات درون شبکه‌ای SHARP v2، گلوگاه‌های شبکه‌ای را که معمولاً مقیاس‌پذیری GPU را محدود می‌کنند، از بین می‌برد. 920-9B210-00FN-0D0 صرفاً یک سوئیچ نیست - بلکه یک 920-9B210-00FN-0D0 InfiniBand switch OPN solution کامل است که شامل سازگاری کامل با زیرساخت‌های HDR موجود، مدیریت در سطح سازمانی از طریق UFM و یک مسیر مهاجرت واضح به سرعت‌های آینده NDR200 است. برای معماران شبکه و مدیران IT که به دنبال بهینه‌سازی عملکرد اتصال کلاستر RDMA/HPC/AI هستند، این سوئیچ از طریق بهره‌وری بالاتر GPU، زمان تکمیل کمتر شغل و سربار عملیاتی کمتر، بازگشت سرمایه قابل اندازه‌گیری را ارائه می‌دهد. 

مرجع مشخصات کلیدی

پارامتر مقدار
مدل NVIDIA Mellanox 920-9B210-00FN-0D0
نرخ داده 400 گیگابیت بر ثانیه NDR (در هر پورت)
OPN پایه 920-9B210-00FN-0D0 InfiniBand switch OPN
پیکربندی کامل 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR
تأخیر سوئیچینگ <200ns
مصرف برق ~350W (معمولی)