Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 در عمل: بهینه‌سازی اتصالات با تأخیر کم برای خوشه‌های RDMA/HPC/AI

April 14, 2026

آخرین اخبار شرکت Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 در عمل: بهینه‌سازی اتصالات با تأخیر کم برای خوشه‌های RDMA/HPC/AI

در عصر آموزش مدل‌های هوش مصنوعی در مقیاس بزرگ و HPC اگزاسکیل، تأخیر شبکه به مهم‌ترین گلوگاه محدودکننده مقیاس‌پذیری خطی خوشه تبدیل شده است. با پرداختن مستقیم به این چالش، سوئیچ InfiniBand Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 نحوه طراحی مراکز تحقیقاتی و آزمایشگاه‌های هوش مصنوعی سازمانی برای شبکه‌های با کارایی بالا را متحول می‌کند. این مقاله سناریوی استقرار معمولی را بررسی می‌کند که در آن 920-9B110-00FH-0D0 تأخیر قطعی و فوق‌العاده کم را برای بارهای کاری فشرده RDMA ارائه می‌دهد.

پیش‌زمینه و چالش: دیوار ارتباطی خوشه هوش مصنوعی

یک مرکز تحقیقاتی هوش مصنوعی با اندازه متوسط در طول آموزش توزیع‌شده در ۶۴ گره با زمان بیکاری GPU دست و پنجه نرم می‌کرد. شبکه اترنت ۱۰۰ گیگابیتی موجود آن‌ها از ازدحام اینکست رنج می‌برد و باعث می‌شد عملیات ارتباطی جمعی (all-reduce, all-gather) تا ۴۰ درصد از کل زمان آموزش را به خود اختصاص دهد. معماران شبکه به یک راه‌حل بدون اتلاف و با توان عملیاتی بالا نیاز داشتند که قادر به مقیاس‌پذیری تا ۲۰۰ گیگابیت بر ثانیه در هر پورت با حفظ تأخیر زیر میکروثانیه باشد. پس از ارزیابی گزینه‌های موجود، تیم 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR را به عنوان بلوک اصلی برای توپولوژی جدید spine-leaf خود انتخاب کرد.

راه‌حل و استقرار: پیاده‌سازی شبکه InfiniBand

استقرار حول سوئیچ‌های NVIDIA Mellanox 920-9B110-00FH-0D0 که در معماری دو لایه fat-tree پیکربندی شده بودند، متمرکز بود. هر گره محاسباتی مجهز به آداپتورهای HDR ConnectX-6 بود که از طریق کابل‌های مسی غیرفعال به سوئیچ‌های leaf متصل می‌شدند. مراحل کلیدی پیاده‌سازی شامل موارد زیر بود:

  • جایگزین RDMA over Converged Ethernet (RoCE):InfiniBand بومی با کنترل ازدحام مبتنی بر سخت‌افزار، افت بسته‌ها را به طور کامل حذف کرد.
  • مسیریابی تطبیقی: راه‌حل 920-9B110-00FH-0D0 InfiniBand switch OPN امکان متعادل‌سازی بار پویا را در مسیرهای متعدد فراهم کرد و از تشکیل نقاط داغ جلوگیری نمود.
  • مدیریت شبکه: استفاده از Subnet Manager (OpenSM) با مشخصات 920-9B110-00FH-0D0 که پشتیبانی از حداکثر ۲۰۰۰ گره را در یک شبکه واحد تأیید می‌کرد.

قبل از خرید، مهندسان برگه داده 920-9B110-00FH-0D0 را بررسی کردند تا سازگاری با اپتیک‌های موجود را تأیید کنند. اکوسیستم سازگار با 920-9B110-00FH-0D0 شامل تمام مونتاژهای کابل HDR اصلی بود که صورتحساب مواد را ساده می‌کرد. در مورد بودجه، قیمت 920-9B110-00FH-0D0 در مقایسه با سوئیچ‌های HDR جایگزین رقابتی بود و واحدها به راحتی در دسترس بودند (920-9B110-00FH-0D0 برای فروش) از طریق شرکای کانال NVIDIA.

نتایج و مزایا: افزایش عملکرد قابل اندازه‌گیری

تله‌متری پس از استقرار، بهبودهای چشمگیری را در سه معیار کلیدی نشان داد:

معیار قبل (100GbE) بعد (920-9B110-00FH-0D0 HDR) بهبود
میانگین تأخیر All-Reduce (۶۴ گره) ۳۴۰ میکروثانیه ۷۸ میکروثانیه کاهش ۷۷ درصدی
زمان بیکاری GPU (سربار ارتباطی) ۳۸٪ ۱۱٪ ۲۷٪ افزایش مطلق
استفاده مؤثر از پهنای باند شبکه ۶۲٪ ۹۴٪ +۳۲٪

فراتر از اعداد خام، 920-9B110-00FH-0D0 InfiniBand switch OPN به تیم اجازه داد تا از ۶۴ به ۲۵۶ گره مقیاس‌پذیری کند بدون اینکه شبکه را دوباره طراحی کند. تأخیر قطعی که توسط کنترل جریان مبتنی بر اعتبار InfiniBand ارائه می‌شود، برای حفظ ثبات آموزش در صدها GPU ضروری بود. مهندسان همچنین از اطلاع‌رسانی ازدحام مبتنی بر سخت‌افزار 920-9B110-00FH-0D0 برای شناسایی و رفع میکرو-انفجارها در زمان واقعی استفاده کردند.

خلاصه و چشم‌انداز: آینده اتصالات هوش مصنوعی

استقرار تأیید می‌کند که NVIDIA Mellanox 920-9B110-00FH-0D0 به عنوان یک عنصر اساسی برای نسل بعدی خوشه‌های هوش مصنوعی و HPC عمل می‌کند. با جایگزینی شبکه‌های اترنت با اتلاف با InfiniBand بدون اتلاف، سازمان‌ها می‌توانند تا ۳۰ درصد از توان محاسباتی GPU را که قبلاً صرف توقف‌های ارتباطی می‌شد، بازیابی کنند. برای معمارانی که زیرساخت‌های هوش مصنوعی جدیدی را برنامه‌ریزی می‌کنند، برگه داده 920-9B110-00FH-0D0 راهنمایی دقیقی در مورد توپولوژی‌ها از خوشه‌های کوچک DGX تا استقرارهای در مقیاس ابررایانه ارائه می‌دهد.

با تکامل بارهای کاری به سمت موازی‌سازی مدل‌های بزرگتر و تراکم‌های بالاتر GPU، 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR یک مسیر ارتقاء واضح به شبکه‌های ۴۰۰ گیگابیت بر ثانیه آینده از طریق طراحی سازگار با عقب را ارائه می‌دهد. چه در حال ارزیابی قیمت 920-9B110-00FH-0D0 در مقابل افزایش بهره‌وری عملیاتی باشید و چه گزینه‌های کابل‌کشی سازگار با 920-9B110-00FH-0D0 را تأیید کنید، این سوئیچ InfiniBand بازگشت سرمایه قابل اندازه‌گیری را برای سازمان‌های داده‌محور ارائه می‌دهد.