NVIDIA Mellanox MQM8790-HS2F در عمل: بهینه سازی اتصال با تاخیر کم برای خوشه های RDMA / HPC / AI

April 10, 2026

پیش‌زمینه و چالش: زمانی که شبکه گلوگاه می‌شود

یک سازمان تحقیقاتی هوش مصنوعی با رشد سریع با یک مشکل آشنا روبرو بود: خوشه بیش از ۲۰۰ پردازنده گرافیکی آن‌ها که برای آموزش مدل‌های زبان بزرگ و شبیه‌سازی‌های دینامیک مولکولی استفاده می‌شد، زمان تکمیل غیرقابل پیش‌بینی وظایف را تجربه می‌کرد. علیرغم گره‌های محاسباتی قدرتمند، شبکه اترنت ۱۰۰ گیگابیت بر ثانیه موجود از جهش‌های تأخیر دم، افت بسته‌ها در الگوهای این‌کاست و سربار بالای پردازنده به دلیل پردازش سنتی پشته TCP/IP رنج می‌برد. این تیم به راه‌حلی نیاز داشت که بتواند تأخیر مداوم زیر میکروثانیه را ارائه دهد، از RDMA برای GPU Direct به طور کامل پشتیبانی کند و بدون ارتقاء اساسی مقیاس‌پذیر باشد. پس از ارزیابی گزینه‌های موجود، آن‌ها NVIDIA Mellanox MQM8790-HS2F را به عنوان بلوک اصلی برای شبکه خوشه نسل بعدی خود انتخاب کردند.

راه حل و استقرار: ادغام سوئیچ InfiniBand MQM8790-HS2F

این سازمان سوئیچ InfiniBand MQM8790-HS2F را در یک توپولوژی دو لایه فت-تری مستقر کرد و ۱۲۸ گره محاسباتی (هر کدام مجهز به آداپتورهای NVIDIA ConnectX-6 HDR) و ۴ گره ذخیره‌سازی را به هم متصل کرد. با ۴۰ پورت QSFP56 که با سرعت ۲۰۰ گیگابیت بر ثانیه HDR کار می‌کنند، یک سوئیچ NVIDIA Mellanox MQM8790-HS2F ظرفیت سوئیچینگ بدون مسدود کننده ۱۶ ترابیت بر ثانیه را فراهم کرد - که برای جایگزینی دو سوئیچ اترنت قدیمی و در عین حال کاهش پیچیدگی کابل‌کشی کافی بود. این استقرار از پشتیبانی بومی MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 برای RDMA و GPUDirect بهره برد و دسترسی مستقیم حافظه بین پردازنده‌های گرافیکی در سرورهای مختلف را بدون دخالت پردازنده امکان‌پذیر کرد.جزئیات کلیدی پیاده‌سازی شامل موارد زیر بود:مسیریابی تطبیقی برای متعادل کردن خودکار ترافیک در مسیرهای متعدد و از بین بردن نقاط داغ.کنترل ازدحام در سطح سوئیچ، جلوگیری از مسدود شدن سر خط که در محیط‌های اترنت با اتلاف رایج است.قبل از خرید، تیم مهندسی برگه داده MQM8790-HS2F و مشخصات MQM8790-HS2F را بررسی کردند تا سازگاری با کابل‌ها و فرستنده‌های Mellanox موجود خود را تأیید کنند. اکوسیستم سازگار با MQM8790-HS2F - از جمله کابل‌های نوری و مسی HDR - به آن‌ها اجازه داد تا ۴۰٪ از سرمایه‌گذاری‌های اتصال قبلی خود را مجدداً استفاده کنند و مانع ارتقاء را به طور قابل توجهی کاهش داد.نتایج و مزایا: افزایش قابل اندازه‌گیری در عملکرد و کارایی

پس از مهاجرت به شبکه مبتنی بر MQM8790-HS2F، این سازمان سه دسته بهبود را مستند کرد:

کاهش تأخیر: میانگین تأخیر پینگ-پونگ MPI از ۲.۱ میکروثانیه (Ethernet RoCE) به ۰.۸۲ میکروثانیه کاهش یافت و تأخیر دم عملاً از بین رفت.
توان عملیاتی وظیفه: وظایف آموزش توزیع شده (مبتنی بر NCCL) به دلیل کاهش سربار ارتباطی و شتاب SHARPv3 ۳۷٪ سریعتر تکمیل شدند.
تخلیه پردازنده: RDMA از طریق InfiniBand استفاده از پردازنده برای شبکه را از حدود ۱۵٪ به کمتر از ۲٪ کاهش داد و هسته‌ها را برای محاسبات آزاد کرد.

در یک معیار ارتباطی ۱۲۸ پردازنده گرافیکی همه به همه، راه حل سوئیچ InfiniBand MQM8790-HS2F با سرعت ۱۹۸ گیگابیت بر ثانیه در هر پورت با صفر افت بسته، در مقایسه با ۱۱۲ گیگابیت بر ثانیه با ۱.۲٪ افت در شبکه اترنت قبلی، پایدار ماند. برای شبیه‌سازی‌های مالی که توسط همان تیم اجرا شد، تنوع وظایف ۷۸٪ کاهش یافت و امکان توافق‌نامه‌های سطح خدمات (SLA) دقیق‌تر و زمان اجرای قابل پیش‌بینی را فراهم کرد.خلاصه و چشم‌انداز: سرمایه‌گذاری آینده‌نگراین استقرار واقعی نشان می‌دهد که MQM8790-HS2F چیزی بیش از یک قهرمان برگه مشخصات است - این مزایای ملموسی را برای بارهای کاری تولیدی HPC و هوش مصنوعی ارائه می‌دهد. ترکیب توان ۲۰۰ گیگابیت بر ثانیه HDR، ۴۰ پورت با چگالی بالا و محاسبات پیشرفته در شبکه، اقتصاد خوشه را با کاهش هم زمان تکمیل وظیفه و هم سربار عملیاتی متحول می‌کند. برای رهبران فناوری اطلاعات که قیمت MQM8790-HS2F را در مقابل افزایش عملکرد ارزیابی می‌کنند، این مطالعه موردی بازگشت سرمایه کمتر از ۱۲ ماه را بر اساس بهبودهای کارایی محاسباتی به تنهایی نشان می‌دهد.همانطور که این سازمان قصد دارد تعداد پردازنده‌های گرافیکی خود را به بیش از ۴۰۰ گره دو برابر کند، آن‌ها قبلاً برای واحدهای اضافی MQM8790-HS2F برای فروش بودجه‌بندی کرده‌اند تا معماری فت-تری بدون مسدود کننده را حفظ کنند. توانایی سوئیچ برای ترکیب سرعت‌های HDR و EDR، مسیر مهاجرت هموار را تضمین می‌کند زیرا آداپتورهای قدیمی به تدریج جایگزین می‌شوند. برای معمارانی که خوشه‌های نسل بعدی متمرکز بر RDMA را طراحی می‌کنند، NVIDIA Mellanox MQM8790-HS2F یک ستون فقرات اثبات شده و آماده تولید را ارائه می‌دهد که از تحقیقات هوش مصنوعی دپارتمانی تا ابر محاسبات مقیاس‌پذیر را مقیاس‌بندی می‌کند.