Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 InfiniBand Switch در حال تولید است
April 15, 2026
یک موسسه تحقیقاتی پیشرو هوش مصنوعی در شرق آسیا با یک گلوگاه رایج اما حیاتی روبرو بود. خوشه ۵۱۲ پردازندهای آنها که برای آموزش مدلهای زبان بزرگ و شبیهسازیهای دینامیک مولکولی استفاده میشد، با کاهش شدید عملکرد در حین مقیاسبندی وظایف مواجه بود. علت اصلی، زیرساخت قدیمی اترنت ۱۰۰ گیگابیت بر ثانیه بود که سربار TCP/IP و از دست دادن بستهها در رویدادهای اینکست باعث بیکاری پردازندهها تا ۳۵ درصد میشد. این تیم به یک زیرساخت بدون اتلاف، با تأخیر فوقالعاده کم نیاز داشت که از RDMA پشتیبانی کند و بدون افت عملکرد قطعی، تا هزاران گره مقیاسپذیر باشد. پس از ارزیابی چندین راهحل، آنها سوئیچ InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 را به عنوان هسته معماری جدید اسپاین-لیف خود انتخاب کردند.
استقرار حول محور 920-9B210-00FN-0D0 به عنوان لایه اسپاین، با ۳۲ سوئیچ لیف که ۵۱۲ پردازنده گرافیکی NVIDIA A100 را از طریق آداپتورهای ConnectX-7 متصل میکردند، متمرکز بود. هر سوئیچ 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR پهنای باند ۴۰۰ گیگابیت بر ثانیه در هر پورت را فراهم میکند که پهنای باند راهحلهای قبلی HDR را دو برابر میکند و در عین حال تأخیر سوئیچینگ زیر میکروثانیه را حفظ میکند. کد قطعه سوئیچ InfiniBand 920-9B210-00FN-0D0 رسمی، خرید را ساده کرد و سازگاری فریمور را در تمام واحدها تضمین کرد. مهندسان شبکه از برگه داده 920-9B210-00FN-0D0 و مشخصات 920-9B210-00FN-0D0 برای تأیید الزامات برق و حرارتی استفاده کردند و امکان ادغام بیدرنگ در رکهای ۱۹ اینچی موجود را فراهم کردند. به طور حیاتی، این سوئیچ کاملاً سازگار با 920-9B210-00FN-0D0 با زیرساخت HDR موجود و نقاط پایانی جدیدتر NDR است که امکان مهاجرت مرحلهای را فراهم میکند.
- افزایش بهرهوری RDMA: با فعال شدن کنترل ازدحام مبتنی بر سختافزار توسط NVIDIA Mellanox 920-9B210-00FN-0D0، تأخیر نوشتن RDMA از ۱۲ میکروثانیه به ۱.۲ میکروثانیه کاهش یافت. RDMA مستقیم پردازنده گرافیکی (GDR) کاملاً مؤثر شد و گلوگاههای حافظه CPU را از بین برد.
- افزایش سرعت برنامههای HPC: یک کد کلیدی مدلسازی آب و هوا (مبتنی بر MPI) به دلیل مسیریابی تطبیقی سوئیچ و تخلیه جمعی SHARP v2، بهبود عملکرد ۲.۷ برابری را تجربه کرد.
- توان عملیاتی آموزش هوش مصنوعی: برای یک وظیفه آموزش LLM با ۱۷۵ میلیارد پارامتر، زیرساخت جدید زمان all-reduce را ۶۸ درصد کاهش داد و استفاده کلی از پردازنده گرافیکی را از ۶۲ درصد به ۹۱ درصد افزایش داد.
- سادگی عملیاتی: راهحل کد قطعه سوئیچ InfiniBand 920-9B210-00FN-0D0 با پلتفرم UFM انویدیا ادغام شد و تلهمتری بیدرنگ و هشدارهای خرابی پیشبینیشده را ارائه داد. مدیران IT کاهش ۵۰ درصدی زمان عیبیابی مرتبط با شبکه را گزارش کردند.
هنگام ارزیابی پروژه، موسسه تحقیقاتی قیمت 920-9B210-00FN-0D0 را در برابر راهحلهای رقیب اترنت سنجید. علیرغم هزینه اولیه بالاتر، هزینه کل مالکیت (TCO) به دلیل استفاده بالاتر از پردازنده گرافیکی و توان کمتر به ازای هر گیگابیت بر ثانیه، به نفع InfiniBand بود. واحدها به راحتی به عنوان 920-9B210-00FN-0D0 برای فروش از طریق کانالهای توزیع انویدیا در دسترس هستند و زمان تحویل به طور قابل توجهی کوتاهتر از سایر سوئیچهای NDR است. مشخصات 920-9B210-00FN-0D0 دقیق همچنین پشتیبانی از منابع تغذیه افزونه و فنهای قابل تعویض در حین کار را تأیید کرد و الزامات قابلیت اطمینان موسسه را برای عملیات تحقیقاتی هوش مصنوعی ۲۴/۷ برآورده کرد.
| پارامتر | جزئیات |
|---|---|
| مدل | NVIDIA Mellanox 920-9B210-00FN-0D0 |
| سرعت پورت | 400Gb/s NDR (در هر پورت) |
| کد قطعه پایه | کد قطعه سوئیچ InfiniBand 920-9B210-00FN-0D0 |
| پیکربندی کامل | 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR |
موسسه تحقیقاتی هوش مصنوعی اکنون 920-9B210-00FN-0D0 را برای تمام گسترشهای آینده خوشه، از جمله یک زیرساخت برنامهریزی شده ۲,۰۴۸ پردازندهای NDR200، استاندارد کرده است. این مورد واقعی نشان میدهد که NVIDIA Mellanox 920-9B210-00FN-0D0 فقط یک سوئیچ نیست - بلکه یک جزء اساسی برای دستیابی به مقیاسپذیری خطی عملکرد در محیطهای هوش مصنوعی و HPC است. برای معماران و مدیران IT که به دنبال حذف گلوگاههای شبکه هستند، راهحل کد قطعه سوئیچ InfiniBand 920-9B210-00FN-0D0 مسیری اثبات شده و آماده تولید را ارائه میدهد.

