Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 در عمل: بهینهسازی اتصالات با تأخیر کم برای خوشههای RDMA/HPC/AI
April 14, 2026
در عصر آموزش مدلهای هوش مصنوعی در مقیاس بزرگ و HPC اگزاسکیل، تأخیر شبکه به مهمترین گلوگاه محدودکننده مقیاسپذیری خطی خوشه تبدیل شده است. با پرداختن مستقیم به این چالش، سوئیچ InfiniBand Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 نحوه طراحی مراکز تحقیقاتی و آزمایشگاههای هوش مصنوعی سازمانی برای شبکههای با کارایی بالا را متحول میکند. این مقاله سناریوی استقرار معمولی را بررسی میکند که در آن 920-9B110-00FH-0D0 تأخیر قطعی و فوقالعاده کم را برای بارهای کاری فشرده RDMA ارائه میدهد.
پیشزمینه و چالش: دیوار ارتباطی خوشه هوش مصنوعی
یک مرکز تحقیقاتی هوش مصنوعی با اندازه متوسط در طول آموزش توزیعشده در ۶۴ گره با زمان بیکاری GPU دست و پنجه نرم میکرد. شبکه اترنت ۱۰۰ گیگابیتی موجود آنها از ازدحام اینکست رنج میبرد و باعث میشد عملیات ارتباطی جمعی (all-reduce, all-gather) تا ۴۰ درصد از کل زمان آموزش را به خود اختصاص دهد. معماران شبکه به یک راهحل بدون اتلاف و با توان عملیاتی بالا نیاز داشتند که قادر به مقیاسپذیری تا ۲۰۰ گیگابیت بر ثانیه در هر پورت با حفظ تأخیر زیر میکروثانیه باشد. پس از ارزیابی گزینههای موجود، تیم 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR را به عنوان بلوک اصلی برای توپولوژی جدید spine-leaf خود انتخاب کرد.
راهحل و استقرار: پیادهسازی شبکه InfiniBand
استقرار حول سوئیچهای NVIDIA Mellanox 920-9B110-00FH-0D0 که در معماری دو لایه fat-tree پیکربندی شده بودند، متمرکز بود. هر گره محاسباتی مجهز به آداپتورهای HDR ConnectX-6 بود که از طریق کابلهای مسی غیرفعال به سوئیچهای leaf متصل میشدند. مراحل کلیدی پیادهسازی شامل موارد زیر بود:
- جایگزین RDMA over Converged Ethernet (RoCE):InfiniBand بومی با کنترل ازدحام مبتنی بر سختافزار، افت بستهها را به طور کامل حذف کرد.
- مسیریابی تطبیقی: راهحل 920-9B110-00FH-0D0 InfiniBand switch OPN امکان متعادلسازی بار پویا را در مسیرهای متعدد فراهم کرد و از تشکیل نقاط داغ جلوگیری نمود.
- مدیریت شبکه: استفاده از Subnet Manager (OpenSM) با مشخصات 920-9B110-00FH-0D0 که پشتیبانی از حداکثر ۲۰۰۰ گره را در یک شبکه واحد تأیید میکرد.
قبل از خرید، مهندسان برگه داده 920-9B110-00FH-0D0 را بررسی کردند تا سازگاری با اپتیکهای موجود را تأیید کنند. اکوسیستم سازگار با 920-9B110-00FH-0D0 شامل تمام مونتاژهای کابل HDR اصلی بود که صورتحساب مواد را ساده میکرد. در مورد بودجه، قیمت 920-9B110-00FH-0D0 در مقایسه با سوئیچهای HDR جایگزین رقابتی بود و واحدها به راحتی در دسترس بودند (920-9B110-00FH-0D0 برای فروش) از طریق شرکای کانال NVIDIA.
نتایج و مزایا: افزایش عملکرد قابل اندازهگیری
تلهمتری پس از استقرار، بهبودهای چشمگیری را در سه معیار کلیدی نشان داد:
| معیار | قبل (100GbE) | بعد (920-9B110-00FH-0D0 HDR) | بهبود |
|---|---|---|---|
| میانگین تأخیر All-Reduce (۶۴ گره) | ۳۴۰ میکروثانیه | ۷۸ میکروثانیه | کاهش ۷۷ درصدی |
| زمان بیکاری GPU (سربار ارتباطی) | ۳۸٪ | ۱۱٪ | ۲۷٪ افزایش مطلق |
| استفاده مؤثر از پهنای باند شبکه | ۶۲٪ | ۹۴٪ | +۳۲٪ |
فراتر از اعداد خام، 920-9B110-00FH-0D0 InfiniBand switch OPN به تیم اجازه داد تا از ۶۴ به ۲۵۶ گره مقیاسپذیری کند بدون اینکه شبکه را دوباره طراحی کند. تأخیر قطعی که توسط کنترل جریان مبتنی بر اعتبار InfiniBand ارائه میشود، برای حفظ ثبات آموزش در صدها GPU ضروری بود. مهندسان همچنین از اطلاعرسانی ازدحام مبتنی بر سختافزار 920-9B110-00FH-0D0 برای شناسایی و رفع میکرو-انفجارها در زمان واقعی استفاده کردند.
خلاصه و چشمانداز: آینده اتصالات هوش مصنوعی
استقرار تأیید میکند که NVIDIA Mellanox 920-9B110-00FH-0D0 به عنوان یک عنصر اساسی برای نسل بعدی خوشههای هوش مصنوعی و HPC عمل میکند. با جایگزینی شبکههای اترنت با اتلاف با InfiniBand بدون اتلاف، سازمانها میتوانند تا ۳۰ درصد از توان محاسباتی GPU را که قبلاً صرف توقفهای ارتباطی میشد، بازیابی کنند. برای معمارانی که زیرساختهای هوش مصنوعی جدیدی را برنامهریزی میکنند، برگه داده 920-9B110-00FH-0D0 راهنمایی دقیقی در مورد توپولوژیها از خوشههای کوچک DGX تا استقرارهای در مقیاس ابررایانه ارائه میدهد.
با تکامل بارهای کاری به سمت موازیسازی مدلهای بزرگتر و تراکمهای بالاتر GPU، 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR یک مسیر ارتقاء واضح به شبکههای ۴۰۰ گیگابیت بر ثانیه آینده از طریق طراحی سازگار با عقب را ارائه میدهد. چه در حال ارزیابی قیمت 920-9B110-00FH-0D0 در مقابل افزایش بهرهوری عملیاتی باشید و چه گزینههای کابلکشی سازگار با 920-9B110-00FH-0D0 را تأیید کنید، این سوئیچ InfiniBand بازگشت سرمایه قابل اندازهگیری را برای سازمانهای دادهمحور ارائه میدهد.

