راه حل فنی سوئیچ InfiniBand NVIDIA Mellanox MQM9790-NS2F
April 13, 2026
این مقاله فنی برای معماران شبکه، مهندسان پیشفروش و رهبران عملیات طراحی شده است. این مقاله بر روی — یک سوئیچ InfiniBand با سرعت 400 گیگابیت بر ثانیه NDR — تمرکز دارد و راهنماییهای دقیقی را در مورد طراحی معماری، فناوریهای کلیدی، استقرار و مقیاسپذیری، و همچنین عملیات و نظارت، به طور خاص برای بهینهسازی اتصال با تأخیر کم در خوشههای RDMA/HPC/AI ارائه میدهد.
1. پیشزمینه پروژه و تحلیل نیازمندیها
بار کاری مدرن آموزش هوش مصنوعی و HPC خوشهها را از هزاران به دهها هزار پردازنده گرافیکی سوق میدهد. در چنین محیطهایی، اتصال شبکه به یک گلوگاه اصلی تبدیل شده است. پارچههای اترنت سنتی با تأخیرهای دم و سربار پردازنده دست و پنجه نرم میکنند، در حالی که استقرارهای قدیمی InfiniBand ممکن است تراکم پورت و پهنای باند کافی نداشته باشند. نیازمندیهای کلیدی شامل تأخیر سوئیچینگ زیر میکروثانیه، ارسال کامل خطی بدون از دست دادن بسته، پشتیبانی کارآمد RDMA و مقیاسپذیری بینقص به صدها سوئیچ است. NVIDIA Mellanox MQM9790-NS2F مستقیماً این نیازها را با قابلیت NDR 400 گیگابیت بر ثانیه و ویژگیهای پیشرفته محاسبات درون شبکه برطرف میکند.
2. طراحی کلی معماری شبکه و سیستم
معماری پیشنهادی از توپولوژی دو لایه Fat-Tree (که به عنوان Clos تاشده نیز شناخته میشود) استفاده میکند که پهنای باند دو نیمه، هزینه و مقیاسپذیری را متعادل میکند. در لایه برگ، سرورهای GPU مجهز به آداپتورهای ConnectX-7 NDR به سوئیچهای برگ متصل میشوند. در لایه ستون فقرات، واحدهای MQM9790-NS2F InfiniBand switch اتصال بدون مسدودیت بین برگها را فراهم میکنند. این طراحی پهنای باند دو نیمه کامل را تضمین میکند: هر سوئیچ برگ میتواند با هر برگ دیگر با سرعت سیم ارتباط برقرار کند. برای خوشههای در مقیاس بزرگ، میتوان از توپولوژی سه لایه (برگ-ستون فقرات-ابر ستون فقرات) استفاده کرد که تا دهها هزار گره GPU را پشتیبانی میکند.
- سوئیچهای برگ: مدلهای 64 پورت OSFP، که هر کدام به 32 سرور (دو پورت) به علاوه لینکهای بالایی به ستون فقرات متصل میشوند.
- لایه ستون فقرات: سوئیچهای MQM9790-NS2F 400Gb/s NDR 64-port OSFP
- ، که هر پورت به عنوان یک لینک بالایی از یک برگ عمل میکند. یک طراحی کاملاً بدون مسدودیت نیاز به پورتهای ستون فقرات برابر با تعداد سوئیچهای برگ دارد.مدیریت زیرشبکه:
یک مدیر زیرشبکه اختصاصی یا افزونه، محاسبه مسیر، مسیریابی تطبیقی و جایگزینی را مدیریت میکند.
3. نقش و ویژگیهای کلیدی NVIDIA Mellanox MQM9790-NS2F در راهحل MQM9790-NS2F
- چندین قابلیت حیاتی را ارائه میدهد:عملکرد خطی 400 گیگابیت بر ثانیه NDR:
- هر یک از 64 پورت OSFP با سرعت کامل دو طرفه 400 گیگابیت بر ثانیه کار میکند و ظرفیت سوئیچینگ تجمعی 51.2 ترابیت بر ثانیه را فراهم میکند.تأخیر فوقالعاده کم و مسیریابی تطبیقی:
- سوئیچینگ برشدار، تأخیر پورت به پورت را زیر 130 نانوثانیه نگه میدارد. مسیریابی تطبیقی به طور پویا ترافیک را در مسیرهای متعدد متعادل میکند و از نقاط داغ جلوگیری میکند.محاسبات درون شبکه (SHARPv3):
- از تجمیع و کاهش سلسله مراتبی مقیاسپذیر پشتیبانی میکند، عملیات جمعی را از پردازنده/GPU تخلیه میکند و انتقال داده را تا 10 برابر کاهش میدهد.طراحی بومی RDMA:
- RDMA شتابدهنده سختافزاری، دسترسی مستقیم به حافظه GPU را امکانپذیر میکند، دخالت پردازنده را حذف کرده و سربار ارتباطی را به طور چشمگیری کاهش میدهد.تلهمتری جامع و QoS:
کنترل ازدحام دقیق، نظارت بر بافر و طبقهبندی جریان، عملکرد قطعی را برای بارهای کاری ترکیبی تضمین میکند. مسیری روشن برای ساخت پارچههای با تأخیر کم و پهنای باند بالا برای خوشههای RDMA/HPC/AI نیازمند ارائه میدهد. تراکم 64 پورت 400 گیگابیت بر ثانیه، سوئیچینگ زیر میکروثانیه و قابلیتهای محاسبات درون شبکه آن مستقیماً چالشهای مقیاسپذیری و عملکرد بارهای کاری مدرن را برطرف میکند. با اتخاذ معماری شرح داده شده در بالا — توپولوژی Fat-Tree، سوئیچهای هسته NDR و عملیات بومی RDMA — سازمانها میتوانند به مقیاسپذیری خطی GPU دست یابند، زمان تکمیل کار را بیش از 30 درصد کاهش دهند و مدیریت پارچه را ساده کنند. برای برنامهریزی دقیق، به برگه داده MQM9790-NS2F
، این سوئیچ همچنین از منابع تغذیه و فنهای قابل تعویض در حین کار، پورتهای مدیریت افزونه و مجموعهای کامل از ابزارهای تشخیصی پشتیبانی میکند و آن را برای محیطهای تولیدی 7x24 مناسب میسازد.
4. توصیههای استقرار و مقیاسپذیری (با توپولوژی معمول)یک خوشه معمول 2048 پردازنده گرافیکی را میتوان با استفاده از 64 سوئیچ برگ و 32 سوئیچ ستون فقرات ساخت. هر برگ به 32 سرور GPU (دو پورت) متصل میشود و 32 لینک بالایی به ستون فقرات ارائه میدهد. لایه ستون فقرات شامل واحدهای MQM9790-NS2F compatible
است که اپتیک NDR یا کابلهای DAC را اجرا میکنند. برای گسترش به 8192 پردازنده گرافیکی، یک لایه ابر ستون فقرات اضافه میشود که چندین پاد را به هم متصل میکند.
- هنگام مقیاسبندی، موارد زیر را در نظر بگیرید:کابلکشی و اپتیک: از کابلهای DAC OSFP به OSFP برای لینکهای کوتاه درون رک و از کابلهای شکافنده OSFP به 4xOSFP یا ماژولهای نوری برای فواصل طولانیتر استفاده کنید. سازگاری با مشخصات MQM9790-NS2F
- را در مورد برد و بودجه توان تأیید کنید.اندازه زیرشبکه:
- یک مدیر زیرشبکه واحد میتواند تا 2000 گره را مدیریت کند؛ فراتر از آن، چندین زیرشبکه را مستقر کنید یا از طراحی مدیر زیرشبکه توزیع شده استفاده کنید.افزونگی: راه حل سوئیچ InfiniBand MQM9790-NS2F
با پیکربندی مناسب SM، جایگزینی بدون وقفه را پشتیبانی میکند.
5. عملیات، نظارت، عیبیابی و بهینهسازی
- عملیات مؤثر نیازمند دید و اتوماسیون است. شیوههای زیر توصیه میشود:نظارت:
- از مدیر پارچه NVIDIA و APIهای تلهمتری برای ردیابی خطاهای پورت، دما، مصرف برق و استفاده از لینک استفاده کنید. هشدارهایی را برای خطاهای CRC یا خطاهای نماد که از آستانهها فراتر میروند، تنظیم کنید.عیبیابی: MQM9790-NS2F
- شمارندههای هر پورت، هیستوگرامهای اشغال بافر و گزارشهای ازدحام را ارائه میدهد. در صورت کاهش عملکرد، پیکربندی مسیریابی تطبیقی را بررسی کنید، اطمینان حاصل کنید که تمام لینکهای پارچه متقارن هستند و تأیید کنید که تجمیع SHARP برای جمعیهای پشتیبانی شده فعال است.بهینهسازی: و راهنماهای سازگاری مراجعه کنید. برای بحث در مورد طراحی سفارشی یا دریافت قیمت MQM9790-NS2F
را در مقابل مبادلات عملکرد هنگام برنامهریزی افزودن ظرفیت بررسی کنید — اغلب، ارتقاء ستون فقرات بازده سرمایهگذاری بهتری نسبت به افزودن برگهای بیشتر دارد.برای سازمانهایی که MQM9790-NS2F برای فروش
را ارزیابی میکنند، اطمینان حاصل کنید که پشته نرمافزار شما (به عنوان مثال، NCCL، OpenMPI) از ویژگیهای NDR مانند SHARPv3 و کاهش مبتنی بر سختافزار پشتیبانی میکند.
6. خلاصه و ارزیابی ارزش راه حل سوئیچ InfiniBand MQM9790-NS2F مسیری روشن برای ساخت پارچههای با تأخیر کم و پهنای باند بالا برای خوشههای RDMA/HPC/AI نیازمند ارائه میدهد. تراکم 64 پورت 400 گیگابیت بر ثانیه، سوئیچینگ زیر میکروثانیه و قابلیتهای محاسبات درون شبکه آن مستقیماً چالشهای مقیاسپذیری و عملکرد بارهای کاری مدرن را برطرف میکند. با اتخاذ معماری شرح داده شده در بالا — توپولوژی Fat-Tree، سوئیچهای هسته NDR و عملیات بومی RDMA — سازمانها میتوانند به مقیاسپذیری خطی GPU دست یابند، زمان تکمیل کار را بیش از 30 درصد کاهش دهند و مدیریت پارچه را ساده کنند. برای برنامهریزی دقیق، به برگه داده رسمی MQM9790-NS2F و راهنماهای سازگاری مراجعه کنید. برای بحث در مورد طراحی سفارشی یا دریافت قیمت MQM9790-NS2F

