راه حل فنی NVIDIA Mellanox MQM8790-HS2F: بهینه سازی اتصال کم تاخیر برای خوشه های RDMA/HPC/AI

April 10, 2026

راه حل فنی NVIDIA Mellanox MQM8790-HS2F: بهینه سازی اتصال کم تاخیر برای خوشه های RDMA/HPC/AI

این راهکار فنی برای معماران شبکه، مهندسان پیش‌فروش و مدیران عملیات طراحی شده است. این راهکار یک راهنمای جامع برای معماری، استقرار و بهره‌برداری از شبکه‌های InfiniBand با کارایی بالا با تمرکز بر NVIDIA Mellanox MQM8790-HS2F، با هدف خوشه‌های محاسباتی سنگین RDMA و آموزش هوش مصنوعی ارائه می‌دهد.

1. پیش‌زمینه و تحلیل نیازمندی‌ها

خوشه‌های مدرن آموزش هوش مصنوعی و محاسبات علمی به طور فزاینده‌ای با اتصال شبکه به عنوان گلوگاه اصلی عملکرد مواجه هستند. شبکه‌های سنتی اترنت با کنترل ازدحام، تأخیر در انتهای صف و قابلیت‌های تخلیه CPU دست و پنجه نرم می‌کنند و قادر به برآورده کردن الزامات الگوهای ارتباطی آموزش توزیع شده مانند All-Reduce و All-to-All نیستند. نیازمندی‌های کلیدی شامل موارد زیر است:تأخیر سرتاسری زیر میکروثانیه، انتقال بدون اتلاف و بدون افت بسته، پشتیبانی از GPU Direct RDMA و قابلیت مقیاس‌پذیری خطی تا هزاران گره. یک معماری سوئیچینگ اختصاصی InfiniBand برای حل اساسی این چالش‌های بهره‌وری اتصال مورد نیاز است.

2. طراحی معماری کلی شبکه/سیستم

این راهکار یک توپولوژی دو لایه Fat-Tree را برای دستیابی به پهنای باند غیر مسدود کننده و کامل توصیه می‌کند. هر دو لایه برگ (Leaf) و ستون فقرات (Spine) از سوئیچ InfiniBand MQM8790-HS2F استفاده می‌کنند که 40 پورت 200 گیگابیت بر ثانیه HDR QSFP56 را ارائه می‌دهد. با استفاده از یک خوشه 512 گره‌ای به عنوان مثال، طراحی به شرح زیر است:

  • لایه برگ (Leaf): هر MQM8790-HS2F به 20 گره محاسباتی (دو آپ‌لینک) و 8 آپ‌لینک به لایه ستون فقرات متصل می‌شود.
  • لایه ستون فقرات (Spine): 8 سوئیچ MQM8790-HS2F صفحه ستون فقرات را تشکیل می‌دهند، با اتصال کامل مش بین هر سوئیچ برگ و هر سوئیچ ستون فقرات.
  • شبکه ذخیره‌سازی و مدیریت: یک زیرشبکه InfiniBand جداگانه یا اترنت خارج از باند برای جلوگیری از تداخل با ترافیک محاسباتی.

این معماری پهنای باند 200 گیگابیت بر ثانیه را بین هر دو گره تضمین می‌کند، با مسیرهای متعدد افزونه که اطمینان حاصل می‌کند که یک نقطه شکست منفرد بر اتصال جهانی تأثیر نمی‌گذارد. چگالی پورت بالای MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 تعداد سوئیچ‌های مورد نیاز را در مقایسه با راه‌حل‌های نسل قبلی EDR 50% کاهش می‌دهد و همچنین پیچیدگی شبکه را کاهش می‌دهد.

3. نقش و ویژگی‌های کلیدی NVIDIA Mellanox MQM8790-HS2F

NVIDIA Mellanox MQM8790-HS2F به عنوان واحد سوئیچینگ اصلی در این راهکار عمل می‌کند و نقش‌های حیاتی زیر را ایفا می‌کند:

  • موتور سوئیچینگ بدون اتلاف: کنترل جریان لایه پیوند InfiniBand، اتلاف بسته را از بین می‌برد و از کارایی انتقال RDMA اطمینان حاصل می‌کند.
  • مسیریابی تطبیقی: به طور پویا ترافیک را در مسیرهای متعدد متعادل می‌کند، از نقاط داغ ازدحام جلوگیری کرده و توان عملیاتی مؤثر را بهبود می‌بخشد.
  • محاسبات درون شبکه SHARPv3: عملیات کاهش را به سوئیچ تخلیه می‌کند و All-Reduce را 2 تا 3 برابر تسریع می‌بخشد.
  • چگالی بالا و مصرف کم انرژی: 40 پورت با سرعت 200 گیگابیت بر ثانیه با مصرف انرژی پیشرو در صنعت در هر پورت، TCO را کاهش می‌دهد.

بر اساس دیتاشیت MQM8790-HS2F و مشخصات MQM8790-HS2F، این سوئیچ ظرفیت سوئیچینگ تجمعی 16 ترابیت بر ثانیه، تأخیر پورت به پورت زیر 130 نانوثانیه را ارائه می‌دهد و از منابع تغذیه و فن‌های قابل تعویض در حین کار برای محیط‌های تولیدی 24/7 پشتیبانی می‌کند. علاوه بر این، این دستگاه کاملاً با آداپتورهای NVIDIA ConnectX-6/7 HDR و طیف گسترده‌ای از کابل‌های نوری/مسی HDR سازگار است و بلوغ اکوسیستم سازگار با MQM8790-HS2F را تأیید می‌کند.

4. توصیه‌های استقرار و مقیاس‌پذیری (با توپولوژی‌های معمول)

هنگام استقرار راهکار، مراحل زیر را دنبال کنید:

  • مدیریت زیرشبکه: مدیران زیرشبکه (SM) فعال-پسیو را مستقر کنید؛ پلتفرم NVIDIA UFM برای مدیریت متمرکز و تله‌متری توصیه می‌شود.
  • پارتیشن‌ها و سطوح خدمات: از کلیدهای پارتیشن (P_Key) برای جداسازی مستأجران یا بار کاری استفاده کنید؛ نگاشت SL2VL را برای اولویت‌بندی ترافیک آموزش هوش مصنوعی پیکربندی کنید.
  • انتخاب کابل: از کابل‌های مسی پسیو برای فواصل کوتاه (≤3 متر) و از کابل‌های نوری اکتیو یا فرستنده‌ها برای مسیرهای طولانی‌تر برای حفظ یکپارچگی سیگنال استفاده کنید.

برای خوشه‌های بزرگتر از 2000 گره، می‌توان از توپولوژی سه لایه Fat-Tree یا Dragonfly+ استفاده کرد، که لایه هسته همچنان از MQM8790-HS2F به عنوان بلوک سازنده استفاده می‌کند. هنگام خرید واحدهای اضافی، قیمت MQM8790-HS2F و در دسترس بودن را از طریق توزیع‌کنندگان مجاز بررسی کنید؛ لیست‌های تأیید شده MQM8790-HS2F برای فروش معمولاً شامل آخرین فریم‌ور و گارانتی هستند. راهکار سوئیچ InfiniBand MQM8790-HS2F به طور روان از تحقیقات هوش مصنوعی دپارتمانی تا مراکز ابر محاسباتی Exascale مقیاس‌پذیر است.

5. عملیات، نظارت، عیب‌یابی و بهینه‌سازی

عملیات مؤثر شبکه InfiniBand نیازمند نظارت فعال و عیب‌یابی منظم است:

  • نظارت: از ibnetdiscover برای تأیید توپولوژی، perfquery برای شمارنده‌های پورت و تله‌متری UFM برای دید در زمان واقعی ازدحام استفاده کنید.
  • مشکلات رایج و راه‌حل:
    • پرش لینک (Link flapping): جایگذاری کابل را بررسی کرده و تست‌های تشخیص کابل را اجرا کنید؛ اپتیک معیوب را جایگزین کنید.
    • شکست مدیر زیرشبکه (Subnet manager failover): اطمینان حاصل کنید که اولویت‌های SM به درستی پیکربندی شده‌اند و SM ثانویه دارای پایگاه داده معتبر است.
    • مسیریابی تطبیقی نامتعادل: پارامترهای الگوریتم مسیریابی (مانند routing_engine=ftree) را تنظیم کرده و پخش بار را فعال کنید.
  • نکات بهینه‌سازی: تجمیع SHARP را برای عملیات جمعی فعال کنید؛ MTU را برای انتقال پیام‌های بزرگ به 4096 بایت تنظیم کنید؛ از کیفیت خدمات (QoS) برای جدا کردن ترافیک کنترل، داده و مدیریت استفاده کنید.

به‌روزرسانی‌های منظم فریم‌ور از طریق پورتال پشتیبانی NVIDIA، وصله‌های امنیتی و بهبودهای عملکرد را تضمین می‌کند. برای خطوط پایه عملکرد دقیق و مقادیر شمارنده مورد انتظار در شرایط سالم به دیتاشیت MQM8790-HS2F مراجعه کنید.

6. خلاصه و ارزیابی ارزش

NVIDIA Mellanox MQM8790-HS2F یک پلتفرم سوئیچینگ InfiniBand آینده‌نگر را ارائه می‌دهد که چالش‌های اصلی اتصال خوشه‌های RDMA/HPC/AI را برطرف می‌کند: تأخیر، اتلاف، سربار CPU و مقیاس‌پذیری. با پیاده‌سازی معماری دو لایه Fat-Tree که در بالا توضیح داده شد، سازمان‌ها می‌توانند به مقیاس‌پذیری عملکرد خطی، زمان‌های تکمیل کار قابل پیش‌بینی و TCO به طور قابل توجهی کاهش یافته در مقایسه با راه‌حل‌های اترنت قدیمی دست یابند. ترکیب سرعت 200 گیگابیت بر ثانیه HDR، چگالی 40 پورت و قابلیت‌های محاسبات درون شبکه این سوئیچ، آن را به گزینه‌ای ایده‌آل برای استقرار سبز یا ارتقاء مرحله‌ای از شبکه‌های EDR/HDR تبدیل می‌کند. برای تیم‌های معماری که خوشه‌های نسل بعدی را ارزیابی می‌کنند، راهکار سوئیچ InfiniBand MQM8790-HS2F یک طرح مرجع اثبات شده و آماده تولید ارائه می‌دهد.