NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch در عمل: بهینه سازی اتصال با تاخیر پایین

April 13, 2026

NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch در عمل: بهینه سازی اتصال با تاخیر پایین برای خوشه های RDMA / HPC / AI

در آموزش هوش مصنوعی، شبیه سازی های محاسبات با عملکرد بالا (HPC) و ذخیره سازی توزیع شده در مقیاس بزرگ، تاخیر شبکه و پهنای باند اغلب محدودیت بالایی از کارایی خوشه را تعیین می کنند.برای کمک به سازمان ها برای عبور از این گلوچک،MQM9790-NS2Fسوئیچ InfiniBand از NVIDIA Mellanox در حال تبدیل شدن به یک جزء اصلی اتصال در بسیاری از استقرار های هوش مصنوعی و HPC است. این مقاله از طریق ارتقاء دنیای واقعی یک خوشه آموزش AI در مقیاس بزرگ،نشان می دهد که چگونه این سوئیچ در شبکه های RDMA با تاخیر پایین و دستاوردهای قابل اندازه گیری عملکرد ارائه می دهد.

پس زمینه و چالش: از فشار شبکه هزار-GPU به ده هزار-GPU

یک موسسه تحقیقاتی پیشرو قبلاً یک خوشه ی هزار GPU را برای آموزش مدل های زبان بزرگ و شبیه سازی آب و هوا اجرا می کرد.با رشد پارامترهای مدل از ده ها میلیارد به صدها میلیارد، شبکه HDR InfiniBand 200Gb / s موجود شروع به تجربه ازدحام و افزایش هزینه های ارتباطی کرد. عملیات Cross-node All-Reduce به طور قابل توجهی طولانی تر شد.و GPU ها اغلب در حال کار در انتظار انتقال شبکه هستندمعماران به طور فوری به راه حلی نیاز داشتند که تراکم بندر بالاتر، تعادل بار بهتر و سازگاری کامل با زیرساخت RDMA موجود را ارائه دهد.

پس از ارزیابی دقیق، تیم یک پارچه InfiniBand درجه NDR را بر اساسNVIDIA Mellanox MQM9790-NS2F. با 64 پورت OSFP، هر کدام با سرعت خط 400Gb / s کار می کنند، سوئیچ به طور کامل با نیازهای خروجی سرورهای GPU نسل بعدی مطابقت دارد.

راه حل و پیاده سازی: پارچه NDR + شبکه RDMA بدون زیان

در طراحی جدید، هر سرور GPU مجهز به آداپتورهای دو پورت ConnectX‐7 است، که به دو سوئیچ برگ متصل می شوند.MQM9790-NS2F 400Gb/s NDR OSFP 64 پورتسوئیچ ها یک توپولوژی دو لایه ی Fat-Tree را با استفاده از معماری غیر مسدود کننده Clos تشکیل می دهند. مسیریابی سازگار و کنترل ازدحام فعال شده است،استفاده از InfiniBand RDMA بومی برای انتقال داده ها به طور مستقیم از حافظه GPU به حافظه GPU از راه دور، دور زدن پردازنده و نرم افزار بالا.

استفاده از پورت و سازگاری:آداپتورهای HDR موجود می توانند با سرعت کاهش یافته کار کنند و از سرمایه گذاری های قبلی محافظت کنند.مطابقت با MQM9790-NS2Fاین لیست شامل سرورهای اصلی GPU و سیستم های ذخیره سازی است که نیازی به تغییر درایور در طول پیاده سازی ندارند.
عملیات هوشمند:مانیتورهای دوربین سنجی داخلی خطاها و ازدحام را در زمان واقعی مرتبط می کنند، به تیم ها کمک می کنند تا به سرعت مشکلات ماژول نوری یا کابل را جدا کنند و به طور چشمگیری زمان متوسط تعمیر را کاهش دهند.

نتایج و مزایا: زمان تکرار آموزش 38 درصد کاهش یافته، هزینه های شبکه به 8 درصد کاهش یافته است

پس از ارتقاء، این موسسه آزمایش های مقایسه ای را بر روی حجم کار تولید انجام داد.سوئیچ MQM9790-NS2F InfiniBandکاهش زمان تکرار از ۲٫۸ ثانیه به ۱٫۷۳ ثانیه، بهبود ۳۸٪. سهم ارتباطات شبکه از کل تاخیر از ۲۲٪ به ۸٪ کاهش یافت.به این معنی که GPU ها زمان بیشتری را صرف محاسبات مفید می کنند.با تشکر از SHARPv3 در شبکه محاسبات در داخل سوئیچ NDR، استفاده از پهنای باند All-Reduce تقریبا دو برابر شده است.

در سمت ذخیره سازی، NVMe با تاخیر کم در InfiniBand پهنای باند خواندن / نوشتن مجموعه سیستم فایل موازی را 2.3 برابر افزایش داد.زمان ذخیره و بازگرداندن نقطه کنترل از 12 دقیقه به کمتر از 5 دقیقه کاهش یافته استاین ارقام در گزارش های تست داخلی ثبت شده و بامشخصات MQM9790-NS2Fسطح اولیه

خلاصه و چشم انداز: NDR Interconnect به عنوان انتخاب پیش فرض برای زیرساخت های نسل بعدی هوش مصنوعی

این مورد به وضوح نشان می دهد که برای خوشه های RDMA/HPC/AI در مقیاس بزرگ، اتخاذMQM9790-NS2F راه حل سوئیچ InfiniBandبرای معماران برنامه ریزی ده هزار گپ یو، این روش به طور موثر از مخرب شبکه جلوگیری می کند، بهره برداری از گپ یو را افزایش می دهد و عملیات را ساده می کند.ورق اطلاعات MQM9790-NS2Fیک مرجع ضروری برای ارزیابی قدرت، تراکم بندر و مجموعه ویژگی است.قیمت MQM9790-NS2FیاMQM9790-NS2F براي فروشلطفاً با شرکای مجاز NVIDIA تماس بگیرید. با توجه به اینکه حجم کاری آینده تقاضا را به سمت 800 گیگابایت در ثانیه و فراتر از آن افزایش می دهد،پلتفرم سوئیچینگ NDR همچنان نقش محوری در باز کردن پتانسیل محاسباتی خواهد داشت..