Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 تمرین کاربردی سوئیچ اینفینیبند
January 6, 2026
پیشزمینه و چالشها: گلوگاه شبکه در محاسبات مدرن
در رقابت برای کشف علمی و پیشرفتهای هوش مصنوعی، قابلیتهای محاسباتی یک مؤسسه تحقیقاتی پیشرو نه به دلیل کمبود قدرت پردازش خام، بلکه به دلیل ساختار شبکه آنها محدود شده بود. زیرساخت HDR InfiniBand موجود آنها، در حالی که توانمند بود، در تلاش برای همگامی با تقاضاهای ارتباطی عظیم و همزمان خوشههای NVIDIA DGX تازه مستقر شده و بارهای کاری HPC سنتی بود. محققان با تاخیرهای قابل توجهی در زمان تکمیل کار مواجه بودند، با تاخیر شبکه و ازدحام در الگوهای ارتباطی همه به همه که به گلوگاه اصلی تبدیل شده بود.
چالش دوگانه بود: اول، کاهش چشمگیر تاخیر برای عملیات دسترسی مستقیم به حافظه از راه دور (RDMA) که برای شبیهسازیهای HPC مبتنی بر MPI حیاتی بود. دوم، ارائه یک ساختار بدون انسداد و بدون درز برای کارهای آموزشی هوش مصنوعی که نیاز به همگامسازی مداوم پارامترها در صدها GPU داشت. این مؤسسه به یک راهحل آیندهنگر نیاز داشت که بتواند سرعت NDR 400Gb/s را مدیریت کند و در عین حال کاملاً سازگار با اکوسیستم موجود خود باشد و از یک مسیر ارتقاء مقرون به صرفه بدون بازنگری کامل اطمینان حاصل کند.
راهحل و استقرار: پیادهسازی Fabric 920-9B210-00FN-0D0
پس از یک ارزیابی کامل، این مؤسسه NVIDIA Mellanox 920-9B210-00FN-0D0 را به عنوان سنگ بنای ساختار جدید با کارایی بالا خود انتخاب کرد. این راهحل بر استقرار چندین سوئیچ 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR برای تشکیل یک لایه ستون فقرات با پهنای باند بالا و تاخیر کم، اتصال تمام گرههای محاسباتی و ذخیرهسازی متمرکز بود.
استقرار به عنوان یک توپولوژی درختی چاق دو لایه هیبریدی برای به حداکثر رساندن پهنای باند دوجانبه و به حداقل رساندن تعداد پرش ساختار یافت. جنبههای کلیدی پیادهسازی شامل موارد زیر بود:
- هسته Fabric: یک لایه ستون فقرات که کاملاً با سوئیچهای 920-9B210-00FN-0D0 ساخته شده است و ستون فقرات NDR 400Gb/s را فراهم میکند.
- ادغام یکپارچه: با استفاده از سازگاری عقبگرد سوئیچ، سوئیچهای برگ HDR موجود و NICها متصل شدند، که از سرمایهگذاریهای قبلی محافظت میکردند و در عین حال امکان ارتقاء تدریجی گرهها به NDR را فراهم میکردند.
- مدیریت پیشرفته: کل ساختار، از جمله واحدهای جدید سوئیچ InfiniBand 920-9B210-00FN-0D0 OPN تحت یک صفحه واحد با استفاده از NVIDIA UFM® مدیریت میشد، که امکان سنجش دقیق عملکرد، تهیه خودکار ساختار و جداسازی سریع خطا را فراهم میکرد.
- اعتبارسنجی: تیم IT با دقت با برگه اطلاعات 920-9B210-00FN-0D0 و مشخصات رسمی مشورت کرد تا به محدوده کابل، الزامات برق و خنککننده در مرکز داده خود اعتبار بخشد و از عملکرد بهینه اطمینان حاصل کند.
این معماری یکپارچه راهحل سوئیچ InfiniBand 920-9B210-00FN-0D0 OPN را ایجاد کرد که هم بارهای کاری HPC کلاسیک و هم بارهای کاری هوش مصنوعی نوظهور این مؤسسه را در یک شبکه واحد و قدرتمند ارائه میداد.
اثرات و مزایا: دستاوردهای قابل اندازهگیری در عملکرد و کارایی
تأثیر استقرار 920-9B210-00FN-0D0 بلافاصله در ابعاد مختلف عملیات آنها قابل اندازهگیری و تحولآفرین بود.
| متریک | قبل از استقرار | پس از استقرار 920-9B210-00FN-0D0 |
|---|---|---|
| میانگین تاخیر MPI (رفت و برگشت) | ~0.7 میکروثانیه | ~0.5 میکروثانیه |
| زمان تکمیل کار آموزش هوش مصنوعی (مدل بزرگ) | 5.2 روز | 3.8 روز (کاهش 27%) |
| استفاده از Fabric در طول اوج همه به همه | اغلب از 85٪ فراتر رفت و باعث ازدحام شد | در سرعتهای NDR زیر 60٪ پایدار است |
| وظایف اداری (پیکربندی مجدد Fabric) | فرآیندهای دستی و زمانبر | خودکار از طریق ادغام UFM® |
مهمترین مزیت، کاهش چشمگیر زمان اجرا برنامه بود. شبیهسازیهای HPC، بهویژه آنهایی که شامل دینامیک سیالات پیچیده بودند، به دلیل تاخیر MPI کمتر و سازگارتر، 20 تا 30 درصد بهبود یافتند. برای تیمهای هوش مصنوعی، عملکرد نزدیک به نظری RDMA بر روی ساختار جدید به این معنی بود که منابع GPU کاملاً با محاسبات اشباع شدهاند، نه اینکه منتظر انتقال شبکه متوقف شوند. در حالی که ارزیابی کل قیمت 920-9B210-00FN-0D0 بخشی از تدارکات بود، شتاب حاصل در نتایج تحقیق یک ROI قانعکننده را ارائه کرد که بسیار بیشتر از هزینههای سرمایهای اولیه بود.
نتیجهگیری و چشمانداز: یک طرح کلی برای زیرساختهای آیندهنگر
کاربرد موفقیتآمیز NVIDIA Mellanox 920-9B210-00FN-0D0 در این محیط تحقیقاتی به عنوان یک طرح کلی قدرتمند برای هر سازمانی که با چالشهای اتصال مشابه مواجه است، عمل میکند. این نشان میدهد که سرمایهگذاری در یک ساختار شبکه پیشرفته یک هزینه فرعی نیست، بلکه یک ضریب استراتژیک برای سرمایهگذاریهای محاسباتی است.
استقرار این مؤسسه ثابت میکند که 920-9B210-00FN-0D0 چیزی بیش از یک سوئیچ است. این یک پلتفرم فعالکننده برای همگرایی است. این به طور یکپارچه بارهای کاری HPC و هوش مصنوعی مبتنی بر RDMA را در یک شبکه واحد و فوقالعاده پاسخگو متحد میکند، عملیات را ساده میکند و کشف را تسریع میکند. از آنجایی که این فناوری به طور گستردهتری برای فروش در دسترس قرار میگیرد، یک استاندارد جدید برای آنچه در خوشهبندی با کارایی بالا امکانپذیر است، تعیین میکند.
با نگاهی به آینده، مقیاسپذیری ذاتی و فضای سربرگ عملکرد ساختار NDR 400Gb/s به این معنی است که این مؤسسه در موقعیت خوبی برای ادغام منابع محاسباتی قدرتمندتر در آینده قرار دارد. 920-9B210-00FN-0D0 به طور موثر شبکه را به عنوان یک گلوگاه حذف کرده است و به محققان اجازه میدهد منحصراً بر محدودیتهای الگوریتمها و تخیل خود تمرکز کنند.

