NVIDIA Mellanox MQM8790-HS2F در عمل: بهینه سازی اتصال با تاخیر کم برای خوشه های RDMA / HPC / AI
April 10, 2026
یک سازمان تحقیقاتی هوش مصنوعی با رشد سریع با یک مشکل آشنا روبرو بود: خوشه بیش از ۲۰۰ پردازنده گرافیکی آنها که برای آموزش مدلهای زبان بزرگ و شبیهسازیهای دینامیک مولکولی استفاده میشد، زمان تکمیل غیرقابل پیشبینی وظایف را تجربه میکرد. علیرغم گرههای محاسباتی قدرتمند، شبکه اترنت ۱۰۰ گیگابیت بر ثانیه موجود از جهشهای تأخیر دم، افت بستهها در الگوهای اینکاست و سربار بالای پردازنده به دلیل پردازش سنتی پشته TCP/IP رنج میبرد. این تیم به راهحلی نیاز داشت که بتواند تأخیر مداوم زیر میکروثانیه را ارائه دهد، از RDMA برای GPU Direct به طور کامل پشتیبانی کند و بدون ارتقاء اساسی مقیاسپذیر باشد. پس از ارزیابی گزینههای موجود، آنها NVIDIA Mellanox MQM8790-HS2F را به عنوان بلوک اصلی برای شبکه خوشه نسل بعدی خود انتخاب کردند.
این سازمان سوئیچ InfiniBand MQM8790-HS2F را در یک توپولوژی دو لایه فت-تری مستقر کرد و ۱۲۸ گره محاسباتی (هر کدام مجهز به آداپتورهای NVIDIA ConnectX-6 HDR) و ۴ گره ذخیرهسازی را به هم متصل کرد. با ۴۰ پورت QSFP56 که با سرعت ۲۰۰ گیگابیت بر ثانیه HDR کار میکنند، یک سوئیچ NVIDIA Mellanox MQM8790-HS2F ظرفیت سوئیچینگ بدون مسدود کننده ۱۶ ترابیت بر ثانیه را فراهم کرد - که برای جایگزینی دو سوئیچ اترنت قدیمی و در عین حال کاهش پیچیدگی کابلکشی کافی بود. این استقرار از پشتیبانی بومی MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 برای RDMA و GPUDirect بهره برد و دسترسی مستقیم حافظه بین پردازندههای گرافیکی در سرورهای مختلف را بدون دخالت پردازنده امکانپذیر کرد.جزئیات کلیدی پیادهسازی شامل موارد زیر بود:مسیریابی تطبیقی برای متعادل کردن خودکار ترافیک در مسیرهای متعدد و از بین بردن نقاط داغ.کنترل ازدحام در سطح سوئیچ، جلوگیری از مسدود شدن سر خط که در محیطهای اترنت با اتلاف رایج است.قبل از خرید، تیم مهندسی برگه داده MQM8790-HS2F و مشخصات MQM8790-HS2F را بررسی کردند تا سازگاری با کابلها و فرستندههای Mellanox موجود خود را تأیید کنند. اکوسیستم سازگار با MQM8790-HS2F - از جمله کابلهای نوری و مسی HDR - به آنها اجازه داد تا ۴۰٪ از سرمایهگذاریهای اتصال قبلی خود را مجدداً استفاده کنند و مانع ارتقاء را به طور قابل توجهی کاهش داد.نتایج و مزایا: افزایش قابل اندازهگیری در عملکرد و کارایی
پس از مهاجرت به شبکه مبتنی بر MQM8790-HS2F، این سازمان سه دسته بهبود را مستند کرد:
- کاهش تأخیر: میانگین تأخیر پینگ-پونگ MPI از ۲.۱ میکروثانیه (Ethernet RoCE) به ۰.۸۲ میکروثانیه کاهش یافت و تأخیر دم عملاً از بین رفت.
- توان عملیاتی وظیفه: وظایف آموزش توزیع شده (مبتنی بر NCCL) به دلیل کاهش سربار ارتباطی و شتاب SHARPv3 ۳۷٪ سریعتر تکمیل شدند.
- تخلیه پردازنده: RDMA از طریق InfiniBand استفاده از پردازنده برای شبکه را از حدود ۱۵٪ به کمتر از ۲٪ کاهش داد و هستهها را برای محاسبات آزاد کرد.
در یک معیار ارتباطی ۱۲۸ پردازنده گرافیکی همه به همه، راه حل سوئیچ InfiniBand MQM8790-HS2F با سرعت ۱۹۸ گیگابیت بر ثانیه در هر پورت با صفر افت بسته، در مقایسه با ۱۱۲ گیگابیت بر ثانیه با ۱.۲٪ افت در شبکه اترنت قبلی، پایدار ماند. برای شبیهسازیهای مالی که توسط همان تیم اجرا شد، تنوع وظایف ۷۸٪ کاهش یافت و امکان توافقنامههای سطح خدمات (SLA) دقیقتر و زمان اجرای قابل پیشبینی را فراهم کرد.خلاصه و چشمانداز: سرمایهگذاری آیندهنگراین استقرار واقعی نشان میدهد که MQM8790-HS2F چیزی بیش از یک قهرمان برگه مشخصات است - این مزایای ملموسی را برای بارهای کاری تولیدی HPC و هوش مصنوعی ارائه میدهد. ترکیب توان ۲۰۰ گیگابیت بر ثانیه HDR، ۴۰ پورت با چگالی بالا و محاسبات پیشرفته در شبکه، اقتصاد خوشه را با کاهش هم زمان تکمیل وظیفه و هم سربار عملیاتی متحول میکند. برای رهبران فناوری اطلاعات که قیمت MQM8790-HS2F را در مقابل افزایش عملکرد ارزیابی میکنند، این مطالعه موردی بازگشت سرمایه کمتر از ۱۲ ماه را بر اساس بهبودهای کارایی محاسباتی به تنهایی نشان میدهد.همانطور که این سازمان قصد دارد تعداد پردازندههای گرافیکی خود را به بیش از ۴۰۰ گره دو برابر کند، آنها قبلاً برای واحدهای اضافی MQM8790-HS2F برای فروش بودجهبندی کردهاند تا معماری فت-تری بدون مسدود کننده را حفظ کنند. توانایی سوئیچ برای ترکیب سرعتهای HDR و EDR، مسیر مهاجرت هموار را تضمین میکند زیرا آداپتورهای قدیمی به تدریج جایگزین میشوند. برای معمارانی که خوشههای نسل بعدی متمرکز بر RDMA را طراحی میکنند، NVIDIA Mellanox MQM8790-HS2F یک ستون فقرات اثبات شده و آماده تولید را ارائه میدهد که از تحقیقات هوش مصنوعی دپارتمانی تا ابر محاسبات مقیاسپذیر را مقیاسبندی میکند.

