Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 تمرین کاربردی سوئیچ اینفینی‌بند

January 6, 2026

آخرین اخبار شرکت Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 تمرین کاربردی سوئیچ اینفینی‌بند

پیش‌زمینه و چالش‌ها: گلوگاه شبکه در محاسبات مدرن

در رقابت برای کشف علمی و پیشرفت‌های هوش مصنوعی، قابلیت‌های محاسباتی یک مؤسسه تحقیقاتی پیشرو نه به دلیل کمبود قدرت پردازش خام، بلکه به دلیل ساختار شبکه آن‌ها محدود شده بود. زیرساخت HDR InfiniBand موجود آن‌ها، در حالی که توانمند بود، در تلاش برای همگامی با تقاضاهای ارتباطی عظیم و همزمان خوشه‌های NVIDIA DGX تازه مستقر شده و بارهای کاری HPC سنتی بود. محققان با تاخیرهای قابل توجهی در زمان تکمیل کار مواجه بودند، با تاخیر شبکه و ازدحام در الگوهای ارتباطی همه به همه که به گلوگاه اصلی تبدیل شده بود.

چالش دوگانه بود: اول، کاهش چشمگیر تاخیر برای عملیات دسترسی مستقیم به حافظه از راه دور (RDMA) که برای شبیه‌سازی‌های HPC مبتنی بر MPI حیاتی بود. دوم، ارائه یک ساختار بدون انسداد و بدون درز برای کارهای آموزشی هوش مصنوعی که نیاز به همگام‌سازی مداوم پارامترها در صدها GPU داشت. این مؤسسه به یک راه‌حل آینده‌نگر نیاز داشت که بتواند سرعت NDR 400Gb/s را مدیریت کند و در عین حال کاملاً سازگار با اکوسیستم موجود خود باشد و از یک مسیر ارتقاء مقرون به صرفه بدون بازنگری کامل اطمینان حاصل کند.

راه‌حل و استقرار: پیاده‌سازی Fabric 920-9B210-00FN-0D0

پس از یک ارزیابی کامل، این مؤسسه NVIDIA Mellanox 920-9B210-00FN-0D0 را به عنوان سنگ بنای ساختار جدید با کارایی بالا خود انتخاب کرد. این راه‌حل بر استقرار چندین سوئیچ 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR برای تشکیل یک لایه ستون فقرات با پهنای باند بالا و تاخیر کم، اتصال تمام گره‌های محاسباتی و ذخیره‌سازی متمرکز بود.

استقرار به عنوان یک توپولوژی درختی چاق دو لایه هیبریدی برای به حداکثر رساندن پهنای باند دوجانبه و به حداقل رساندن تعداد پرش ساختار یافت. جنبه‌های کلیدی پیاده‌سازی شامل موارد زیر بود:

  • هسته Fabric: یک لایه ستون فقرات که کاملاً با سوئیچ‌های 920-9B210-00FN-0D0 ساخته شده است و ستون فقرات NDR 400Gb/s را فراهم می‌کند.
  • ادغام یکپارچه: با استفاده از سازگاری عقب‌گرد سوئیچ، سوئیچ‌های برگ HDR موجود و NIC‌ها متصل شدند، که از سرمایه‌گذاری‌های قبلی محافظت می‌کردند و در عین حال امکان ارتقاء تدریجی گره‌ها به NDR را فراهم می‌کردند.
  • مدیریت پیشرفته: کل ساختار، از جمله واحدهای جدید سوئیچ InfiniBand 920-9B210-00FN-0D0 OPN تحت یک صفحه واحد با استفاده از NVIDIA UFM® مدیریت می‌شد، که امکان سنجش دقیق عملکرد، تهیه خودکار ساختار و جداسازی سریع خطا را فراهم می‌کرد.
  • اعتبارسنجی: تیم IT با دقت با برگه اطلاعات 920-9B210-00FN-0D0 و مشخصات رسمی مشورت کرد تا به محدوده کابل، الزامات برق و خنک‌کننده در مرکز داده خود اعتبار بخشد و از عملکرد بهینه اطمینان حاصل کند.

این معماری یکپارچه راه‌حل سوئیچ InfiniBand 920-9B210-00FN-0D0 OPN را ایجاد کرد که هم بارهای کاری HPC کلاسیک و هم بارهای کاری هوش مصنوعی نوظهور این مؤسسه را در یک شبکه واحد و قدرتمند ارائه می‌داد.

اثرات و مزایا: دستاوردهای قابل اندازه‌گیری در عملکرد و کارایی

تأثیر استقرار 920-9B210-00FN-0D0 بلافاصله در ابعاد مختلف عملیات آن‌ها قابل اندازه‌گیری و تحول‌آفرین بود.

متریک قبل از استقرار پس از استقرار 920-9B210-00FN-0D0
میانگین تاخیر MPI (رفت و برگشت) ~0.7 میکروثانیه ~0.5 میکروثانیه
زمان تکمیل کار آموزش هوش مصنوعی (مدل بزرگ) 5.2 روز 3.8 روز (کاهش 27%)
استفاده از Fabric در طول اوج همه به همه اغلب از 85٪ فراتر رفت و باعث ازدحام شد در سرعت‌های NDR زیر 60٪ پایدار است
وظایف اداری (پیکربندی مجدد Fabric) فرآیندهای دستی و زمان‌بر خودکار از طریق ادغام UFM®

مهم‌ترین مزیت، کاهش چشمگیر زمان اجرا برنامه بود. شبیه‌سازی‌های HPC، به‌ویژه آن‌هایی که شامل دینامیک سیالات پیچیده بودند، به دلیل تاخیر MPI کمتر و سازگارتر، 20 تا 30 درصد بهبود یافتند. برای تیم‌های هوش مصنوعی، عملکرد نزدیک به نظری RDMA بر روی ساختار جدید به این معنی بود که منابع GPU کاملاً با محاسبات اشباع شده‌اند، نه اینکه منتظر انتقال شبکه متوقف شوند. در حالی که ارزیابی کل قیمت 920-9B210-00FN-0D0 بخشی از تدارکات بود، شتاب حاصل در نتایج تحقیق یک ROI قانع‌کننده را ارائه کرد که بسیار بیشتر از هزینه‌های سرمایه‌ای اولیه بود.

نتیجه‌گیری و چشم‌انداز: یک طرح کلی برای زیرساخت‌های آینده‌نگر

کاربرد موفقیت‌آمیز NVIDIA Mellanox 920-9B210-00FN-0D0 در این محیط تحقیقاتی به عنوان یک طرح کلی قدرتمند برای هر سازمانی که با چالش‌های اتصال مشابه مواجه است، عمل می‌کند. این نشان می‌دهد که سرمایه‌گذاری در یک ساختار شبکه پیشرفته یک هزینه فرعی نیست، بلکه یک ضریب استراتژیک برای سرمایه‌گذاری‌های محاسباتی است.

استقرار این مؤسسه ثابت می‌کند که 920-9B210-00FN-0D0 چیزی بیش از یک سوئیچ است. این یک پلتفرم فعال‌کننده برای همگرایی است. این به طور یکپارچه بارهای کاری HPC و هوش مصنوعی مبتنی بر RDMA را در یک شبکه واحد و فوق‌العاده پاسخگو متحد می‌کند، عملیات را ساده می‌کند و کشف را تسریع می‌کند. از آنجایی که این فناوری به طور گسترده‌تری برای فروش در دسترس قرار می‌گیرد، یک استاندارد جدید برای آنچه در خوشه‌بندی با کارایی بالا امکان‌پذیر است، تعیین می‌کند.

با نگاهی به آینده، مقیاس‌پذیری ذاتی و فضای سربرگ عملکرد ساختار NDR 400Gb/s به این معنی است که این مؤسسه در موقعیت خوبی برای ادغام منابع محاسباتی قدرتمندتر در آینده قرار دارد. 920-9B210-00FN-0D0 به طور موثر شبکه را به عنوان یک گلوگاه حذف کرده است و به محققان اجازه می‌دهد منحصراً بر محدودیت‌های الگوریتم‌ها و تخیل خود تمرکز کنند.