راه حل فنی سوئیچ InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0
April 15, 2026
1. پیشزمینه پروژه و تجزیه و تحلیل الزامات
خوشههای مدرن آموزش هوش مصنوعی و محیطهای محاسباتی با کارایی بالا (HPC) با یک چالش مقیاسپذیری مشترک روبرو هستند: با افزایش تعداد GPUها و تراکم محاسباتی، شبکههای اترنت سنتی به دلیل سربار TCP/IP، از دست دادن بستهها و تأخیر غیرقابل پیشبینی در انتهای طیف، به گلوگاه اصلی تبدیل میشوند. برای بارهای کاری که به RDMA (دسترسی مستقیم حافظه از راه دور) متکی هستند، حتی لرزش در حد میکروثانیه میتواند بهرهوری مؤثر GPU را 30-40٪ کاهش دهد. سوئیچ InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 مستقیماً این چالشها را با ارائه یک شبکه بدون اتلاف و قطعی که برای عملیات جمعی، الگوریتمهای all-reduce و ارتباطات MPI با فرکانس بالا بهینه شده است، برطرف میکند.
الزامات کلیدی برای شبکههای نسل بعدی هوش مصنوعی/HPC شامل موارد زیر است: تأخیر سوئیچینگ زیر میکروثانیه، پشتیبانی از سرعتهای 400 گیگابیت بر ثانیه NDR، محاسبات درون شبکهای مبتنی بر سختافزار (SHARP v2) و سازگاری کامل با عقبگرد با زیرساخت HDR موجود. 920-9B210-00FN-0D0 تمام این معیارها را برآورده میکند و در عین حال قابلیت مدیریت و تلهمتری در سطح سازمانی را نیز ارائه میدهد.
2. طراحی کلی معماری شبکه و سیستم
معماری پیشنهادی بر روی یک توپولوژی دو لایه fat-tree (spine-leaf) متمرکز است که پهنای باند کامل دو نیمه و تأخیر قطعی را برای الگوهای ارتباطی all-to-all که معمولاً در آموزش توزیع شده وجود دارد، فراهم میکند. لایه spine از سوئیچهای NVIDIA Mellanox 920-9B210-00FN-0D0 تشکیل شده است که هر کدام به عنوان یک ستون فقرات شبکه NDR عمل میکنند. سوئیچهای Leaf (مانند سری QM9700) از طریق آداپتورهای ConnectX-7 یا BlueField-3 به گرههای محاسباتی متصل میشوند، در حالی که اتصالات بالایی به ستون فقرات با سرعت 400 گیگابیت بر ثانیه NDR اجرا میشوند.
برای استقرار در مقیاس بزرگ بیش از 2000 GPU، میتوان یک معماری سه لایه (core-aggregation-access) پیادهسازی کرد، که در آن واحدهای 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR هم به عنوان سوئیچهای هسته و هم به عنوان سوئیچهای تجمیع کننده عمل میکنند. این طراحی مقیاسپذیری عملکرد خطی را تضمین میکند و از توسعه آینده به NDR200 (800 گیگابیت بر ثانیه) بدون نیاز به ارتقاء کامل پشتیبانی میکند. 920-9B210-00FN-0D0 InfiniBand switch OPN رسمی، خرید چند سایتی را ساده میکند و سازگاری سفتافزار را در سراسر شبکه تضمین میکند.
3. نقش و ویژگیهای کلیدی 920-9B210-00FN-0D0 در راهحل
920-9B210-00FN-0D0 به عنوان عنصر ستون فقرات/هسته با کارایی بالا در شبکه InfiniBand عمل میکند. قابلیتهای کلیدی آن عبارتند از:
- تراکم پورت 400 گیگابیت بر ثانیه NDR: هر سوئیچ 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR تا 32 پورت 400 گیگابیت بر ثانیه را ارائه میدهد و از فرستندههای نوری و مسی برای کابلکشی انعطافپذیر تا 500 متر (تک حالته) پشتیبانی میکند.
- محاسبات درون شبکهای (SHARP v2): عملیات all-reduce شتابدهنده سختافزاری، زمان ارتباط جمعی را تا 8 برابر برای بارهای کاری آموزش هوش مصنوعی کاهش میدهد و مستقیماً بهرهوری GPU را بهبود میبخشد.
- مسیریابی تطبیقی و کنترل ازدحام: انتخاب مسیر پویا از تشکیل نقاط داغ جلوگیری میکند و تأخیر قطعی را تحت الگوهای ترافیک incast تضمین میکند.
- جایگزین RDMA over Converged Ethernet (RoCE): برخلاف RoCE، InfiniBand بومی در 920-9B210-00FN-0D0 نیازی به پیکربندی PFC ندارد و عملکرد پایدار را حتی در 95٪ استفاده از لینک ارائه میدهد.
مهندسان میتوانند برای جزئیات توان (معمولاً 350 وات)، حرارتی و تأخیر (تأخیر سوئیچینگ زیر 200 نانوثانیه) به 920-9B210-00FN-0D0 datasheet و 920-9B210-00FN-0D0 specifications مراجعه کنند. این سوئیچ کاملاً 920-9B210-00FN-0D0 compatible با تمام نقاط پایانی اصلی NVIDIA InfiniBand و اپتیکهای NDR شخص ثالث است.
4. توصیههای استقرار و مقیاسپذیری (نمونههای توپولوژی)
کلاستر کوچک (128-256 GPU): یک ستون فقرات واحد از 2 سوئیچ 920-9B210-00FN-0D0 که هر کدام به 8-16 سوئیچ Leaf متصل میشوند. پهنای باند کامل دو نیمه و افزونگی را فراهم میکند. کلاستر متوسط (512-1024 GPU): چهار سوئیچ ستون فقرات در یک پیکربندی بدون مسدود کننده، که هر سوئیچ Leaf دارای 4 اتصال بالایی (2 عدد در هر ستون فقرات) است. این توپولوژی تضمین میکند که هیچ لینکی تحت ترافیک اوج بیش از 80٪ استفاده نشود. کلاستر بزرگ (2048+ GPU): لایه هسته از 8 سوئیچ NVIDIA Mellanox 920-9B210-00FN-0D0، لایه تجمیع کننده با استفاده از همین مدل، و لایه دسترسی با سری QM9700. تمام اتصالات متقابل با سرعت 400 گیگابیت بر ثانیه NDR، با آمادگی اختیاری NDR200.
برای سازمانهایی که هزینه را ارزیابی میکنند، 920-9B210-00FN-0D0 price در مقایسه با سوئیچهای اترنت رده بالا، با در نظر گرفتن کل هزینه مالکیت (TCO)، رقابتی است. واحدها به صورت 920-9B210-00FN-0D0 for sale از طریق شبکه توزیع مجاز NVIDIA در دسترس هستند، با زمان تحویل معمول 4-6 هفته.
5. عملیات، نظارت، عیبیابی و بهینهسازی
مدیریت از طریق NVIDIA Unified Fabric Manager (UFM) متمرکز میشود که تلهمتری بیدرنگ، تجزیه و تحلیل شکست پیشبینیکننده و اصلاح خودکار را ارائه میدهد. شیوههای عملیاتی کلیدی برای 920-9B210-00FN-0D0 InfiniBand switch OPN solution شامل موارد زیر است:
- خطوط پایه عملکرد: از نقشههای حرارتی تأخیر UFM برای شناسایی میکرو-انفجارها استفاده کنید. 920-9B210-00FN-0D0 specifications شمارندههای سختافزاری برای نشانههای ECN و اشغال بافر را تأیید میکنند.
- مدیریت سفتافزار: تمام واحدها را در یک شاخه سفتافزار NDR نگه دارید. 920-9B210-00FN-0D0 datasheet شامل ماتریس سازگاری برای ConnectX-7 و BlueField-3 است.
- سناریوهای خطا: منابع تغذیه و ماژولهای فن افزونه امکان افزونگی N+1 را فراهم میکنند. UFM میتواند به طور خودکار ترافیک را در اطراف لینکها یا سوئیچهای معیوب مجدداً مسیریابی کند.
- نکات بهینهسازی: مسیریابی تطبیقی را در تمام پورتهای ستون فقرات فعال کنید؛ فریمهای مکث جهانی را غیرفعال کنید؛ SHARP را برای بارهای کاری با شدت all-reduce پیکربندی کنید؛ از شناسههای 920-9B210-00FN-0D0 InfiniBand switch OPN برای نگاشت پورتهای فیزیکی به نقشهای منطقی استفاده کنید.
6. خلاصه و ارزیابی ارزش
Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 یک بلوک ساختمانی اساسی برای شبکههای هوش مصنوعی و HPC با کارایی بالا را نشان میدهد. با ارائه پهنای باند 400 گیگابیت بر ثانیه NDR، تأخیر سوئیچینگ زیر میکروثانیه و محاسبات درون شبکهای SHARP v2، گلوگاههای شبکهای را که معمولاً مقیاسپذیری GPU را محدود میکنند، از بین میبرد. 920-9B210-00FN-0D0 صرفاً یک سوئیچ نیست - بلکه یک 920-9B210-00FN-0D0 InfiniBand switch OPN solution کامل است که شامل سازگاری کامل با زیرساختهای HDR موجود، مدیریت در سطح سازمانی از طریق UFM و یک مسیر مهاجرت واضح به سرعتهای آینده NDR200 است. برای معماران شبکه و مدیران IT که به دنبال بهینهسازی عملکرد اتصال کلاستر RDMA/HPC/AI هستند، این سوئیچ از طریق بهرهوری بالاتر GPU، زمان تکمیل کمتر شغل و سربار عملیاتی کمتر، بازگشت سرمایه قابل اندازهگیری را ارائه میدهد.
مرجع مشخصات کلیدی
| پارامتر | مقدار |
|---|---|
| مدل | NVIDIA Mellanox 920-9B210-00FN-0D0 |
| نرخ داده | 400 گیگابیت بر ثانیه NDR (در هر پورت) |
| OPN پایه | 920-9B210-00FN-0D0 InfiniBand switch OPN |
| پیکربندی کامل | 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR |
| تأخیر سوئیچینگ | <200ns |
| مصرف برق | ~350W (معمولی) |

