Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 InfiniBand Switch در حال تولید است

April 15, 2026

آخرین اخبار شرکت Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 InfiniBand Switch در حال تولید است
پیشینه و چالش: دیوار مقیاس‌پذیری در خوشه‌های آموزش هوش مصنوعی

یک موسسه تحقیقاتی پیشرو هوش مصنوعی در شرق آسیا با یک گلوگاه رایج اما حیاتی روبرو بود. خوشه ۵۱۲ پردازنده‌ای آن‌ها که برای آموزش مدل‌های زبان بزرگ و شبیه‌سازی‌های دینامیک مولکولی استفاده می‌شد، با کاهش شدید عملکرد در حین مقیاس‌بندی وظایف مواجه بود. علت اصلی، زیرساخت قدیمی اترنت ۱۰۰ گیگابیت بر ثانیه بود که سربار TCP/IP و از دست دادن بسته‌ها در رویدادهای این‌کست باعث بیکاری پردازنده‌ها تا ۳۵ درصد می‌شد. این تیم به یک زیرساخت بدون اتلاف، با تأخیر فوق‌العاده کم نیاز داشت که از RDMA پشتیبانی کند و بدون افت عملکرد قطعی، تا هزاران گره مقیاس‌پذیر باشد. پس از ارزیابی چندین راه‌حل، آن‌ها سوئیچ InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 را به عنوان هسته معماری جدید اسپاین-لیف خود انتخاب کردند.

راه‌حل و استقرار: ادغام 920-9B210-00FN-0D0 در یک زیرساخت NDR

استقرار حول محور 920-9B210-00FN-0D0 به عنوان لایه اسپاین، با ۳۲ سوئیچ لیف که ۵۱۲ پردازنده گرافیکی NVIDIA A100 را از طریق آداپتورهای ConnectX-7 متصل می‌کردند، متمرکز بود. هر سوئیچ 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR پهنای باند ۴۰۰ گیگابیت بر ثانیه در هر پورت را فراهم می‌کند که پهنای باند راه‌حل‌های قبلی HDR را دو برابر می‌کند و در عین حال تأخیر سوئیچینگ زیر میکروثانیه را حفظ می‌کند. کد قطعه سوئیچ InfiniBand 920-9B210-00FN-0D0 رسمی، خرید را ساده کرد و سازگاری فریم‌ور را در تمام واحدها تضمین کرد. مهندسان شبکه از برگه داده 920-9B210-00FN-0D0 و مشخصات 920-9B210-00FN-0D0 برای تأیید الزامات برق و حرارتی استفاده کردند و امکان ادغام بی‌درنگ در رک‌های ۱۹ اینچی موجود را فراهم کردند. به طور حیاتی، این سوئیچ کاملاً سازگار با 920-9B210-00FN-0D0 با زیرساخت HDR موجود و نقاط پایانی جدیدتر NDR است که امکان مهاجرت مرحله‌ای را فراهم می‌کند.

نتایج عملکرد و مزایای عملیاتی
  • افزایش بهره‌وری RDMA: با فعال شدن کنترل ازدحام مبتنی بر سخت‌افزار توسط NVIDIA Mellanox 920-9B210-00FN-0D0، تأخیر نوشتن RDMA از ۱۲ میکروثانیه به ۱.۲ میکروثانیه کاهش یافت. RDMA مستقیم پردازنده گرافیکی (GDR) کاملاً مؤثر شد و گلوگاه‌های حافظه CPU را از بین برد.
  • افزایش سرعت برنامه‌های HPC: یک کد کلیدی مدل‌سازی آب و هوا (مبتنی بر MPI) به دلیل مسیریابی تطبیقی سوئیچ و تخلیه جمعی SHARP v2، بهبود عملکرد ۲.۷ برابری را تجربه کرد.
  • توان عملیاتی آموزش هوش مصنوعی: برای یک وظیفه آموزش LLM با ۱۷۵ میلیارد پارامتر، زیرساخت جدید زمان all-reduce را ۶۸ درصد کاهش داد و استفاده کلی از پردازنده گرافیکی را از ۶۲ درصد به ۹۱ درصد افزایش داد.
  • سادگی عملیاتی: راه‌حل کد قطعه سوئیچ InfiniBand 920-9B210-00FN-0D0 با پلتفرم UFM انویدیا ادغام شد و تله‌متری بی‌درنگ و هشدارهای خرابی پیش‌بینی‌شده را ارائه داد. مدیران IT کاهش ۵۰ درصدی زمان عیب‌یابی مرتبط با شبکه را گزارش کردند.
بینش هزینه و در دسترس بودن

هنگام ارزیابی پروژه، موسسه تحقیقاتی قیمت 920-9B210-00FN-0D0 را در برابر راه‌حل‌های رقیب اترنت سنجید. علی‌رغم هزینه اولیه بالاتر، هزینه کل مالکیت (TCO) به دلیل استفاده بالاتر از پردازنده گرافیکی و توان کمتر به ازای هر گیگابیت بر ثانیه، به نفع InfiniBand بود. واحدها به راحتی به عنوان 920-9B210-00FN-0D0 برای فروش از طریق کانال‌های توزیع انویدیا در دسترس هستند و زمان تحویل به طور قابل توجهی کوتاه‌تر از سایر سوئیچ‌های NDR است. مشخصات 920-9B210-00FN-0D0 دقیق همچنین پشتیبانی از منابع تغذیه افزونه و فن‌های قابل تعویض در حین کار را تأیید کرد و الزامات قابلیت اطمینان موسسه را برای عملیات تحقیقاتی هوش مصنوعی ۲۴/۷ برآورده کرد.

مشخصات فنی کلیدی در یک نگاه
پارامتر جزئیات
مدل NVIDIA Mellanox 920-9B210-00FN-0D0
سرعت پورت 400Gb/s NDR (در هر پورت)
کد قطعه پایه کد قطعه سوئیچ InfiniBand 920-9B210-00FN-0D0
پیکربندی کامل 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR
خلاصه و چشم‌انداز: استاندارد برای زیرساخت‌های هوش مصنوعی نسل بعدی

موسسه تحقیقاتی هوش مصنوعی اکنون 920-9B210-00FN-0D0 را برای تمام گسترش‌های آینده خوشه، از جمله یک زیرساخت برنامه‌ریزی شده ۲,۰۴۸ پردازنده‌ای NDR200، استاندارد کرده است. این مورد واقعی نشان می‌دهد که NVIDIA Mellanox 920-9B210-00FN-0D0 فقط یک سوئیچ نیست - بلکه یک جزء اساسی برای دستیابی به مقیاس‌پذیری خطی عملکرد در محیط‌های هوش مصنوعی و HPC است. برای معماران و مدیران IT که به دنبال حذف گلوگاه‌های شبکه هستند، راه‌حل کد قطعه سوئیچ InfiniBand 920-9B210-00FN-0D0 مسیری اثبات شده و آماده تولید را ارائه می‌دهد.