مقاله سفید فنی: راهحل سوئیچ اینفینیبند NVIDIA Mellanox 920-9B210-00FN-0D0
January 6, 2026
تکامل بارهای کاری محاسباتی به سمت آموزش هوش مصنوعی در مقیاس اگزاسکیل و شبیهسازیهای HPC با وفاداری بالا، بهطور اساسی گلوگاه عملکرد را از محاسبات به اتصال متقابل تغییر داده است. خوشههای مدرن وابسته به RDMA به یک ساختار نیاز دارند که نه تنها پهنای باند بالا، بلکه تأخیر فوقالعاده کم قطعی، حداقل لرزش و مقیاسپذیری بیوقفه را نیز ارائه دهد. شبکههای قدیمی اغلب تأخیر متغیر، از دست رفتن بستههای ناشی از ازدحام و پیچیدگی مدیریت را معرفی میکنند که مستقیماً به زمان طولانیتر برای راهحل، استفاده ناکافی از منابع GPU/CPU و افزایش سربار عملیاتی ترجمه میشود.
این راهحل فنی نیازهای اصلی مراکز داده و تأسیسات تحقیقاتی نسل بعدی را برطرف میکند: ایجاد یک ساختار یکپارچه و با کارایی بالا که قادر به همگرایی بارهای کاری HPC کلاسیک (مبتنی بر MPI) و هوش مصنوعی مدرن (ارتباط جمعی) باشد. الزامات فنی کلیدی شامل تأخیر سوئیچ زیر میکروثانیه، توان عملیاتی بدون انسداد برای الگوهای ارتباطی همه به همه، کنترل ازدحام هوشمند و یک چارچوب مدیریتی است که دید عمیق و اتوماسیون را فراهم میکند. راهحل سوئیچ InfiniBand 920-9B210-00FN-0D0 برای برآورده کردن این استانداردهای دقیق مهندسی شده است.
معماری پیشنهادی یک ساختار ستون-برگ است که برای حداکثر پهنای باند دوطرفه و مقیاسپذیری طراحی شده است و بر اساس فناوری NDR 400Gb/s InfiniBand ساخته شده است. لایه ستون کاملاً از سوئیچهای بعد ارزش تشکیل شده است که هسته با پهنای باند فوقالعاده بالا را تشکیل میدهد. لایه برگ میتواند شامل ترکیبی از سوئیچهای NDR یا HDR باشد که گرههای محاسباتی (سرورهای GPU مانند سیستمهای NVIDIA DGX، خوشههای CPU)، ذخیرهسازی موازی با کارایی بالا (NVMe-oF) و گرههای مدیریت را متصل میکند.
این طراحی جدا شده، تأخیر قابل پیشبینی را تضمین میکند و از اشتراک بیش از حد در داخل ساختار جلوگیری میکند. اصول معماری کلیدی عبارتند از:
- ساختار یکپارچه: یک شبکه واحد برای ترافیک محاسباتی (شرق-غرب) و ذخیرهسازی، سادهسازی مدیریت و کاهش CAPEX.
- عملکرد بدون ضرر: استفاده از کنترل ازدحام بومی InfiniBand و مدیریت جریان ترافیک برای تضمین عدم از دست رفتن بسته، که برای عملکرد RDMA و MPI حیاتی است.
- شبکهسازی تعریفشده توسط نرمافزار: ادغام با NVIDIA Cumulus Linux و پلتفرم UFM® امکان اتوماسیون ساختار قابل برنامهریزی و مدیریت مبتنی بر سیاست را فراهم میکند.
سوئیچ 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR سنگ بنای استراتژیک این معماری است که به عنوان ستون با کارایی بالا عمل میکند. نقش آن فراتر از سوئیچینگ ساده است؛ این موتور هوشمندی است که حرکت بهینه دادهها را تضمین میکند.
ویژگیهای فنی کلیدی آن، همانطور که در برگه اطلاعات 920-9B210-00FN-0D0 رسمی آمده است، مستقیماً بهینهسازی تأخیر کم را برطرف میکند:
- سوئیچینگ Cut-Through و تأخیر فوقالعاده کم: این سوئیچ از معماری سوئیچینگ پیشرفته cut-through استفاده میکند و به تأخیر پورت به پورت کمتر از 100 نانوثانیه دست مییابد. این امر برای کاهش تأخیر کلی سرتاسری عملیات RDMA بسیار مهم است.
- پهنای باند NDR 400Gb/s: هر پورت 400 گیگابیت بر ثانیه را ارائه میدهد و فضای سر مورد نیاز را برای جلوگیری از ازدحام در طول بارهای کاری اوج مانند نقاط بازرسی آموزش هوش مصنوعی توزیعشده یا عملیات MPI_allreduce در مقیاس بزرگ فراهم میکند.
- مسیردهی تطبیقی و کنترل ازدحام: فناوری Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ v3 انویدیا که در سوئیچ تعبیه شده است، عملیات جمعی را از CPU بارگیری میکند و سربار همگامسازی را به شدت کاهش میدهد. این امر همراه با مسیریابی تطبیقی پویا، از نقاط داغ جلوگیری میکند و استفاده متعادل از ساختار را تضمین میکند.
- سازگاری به عقب و جلو: این سوئیچ جزء جداییناپذیر یک استراتژی مهاجرت روان است. این کاملاً با تجهیزات HDR (200Gb/s) و EDR (100Gb/s) موجود سازگار است و امکان ارتقاء مرحلهای را فراهم میکند. مشورت با کابلکشی و برق: دقیق برای برنامهریزی اتصال پورت و انواع کابل بسیار مهم است.هنگامی که این راهحل استقرار اولیه باید از یک رویکرد ماژولار "پاد" پیروی کند. یک پاد شروع معمولی ممکن است از دو سوئیچ
در نقش ستون برای افزونگی استفاده کند که به چندین سوئیچ برگ HDR یا NDR متصل شدهاند و از دهها گره محاسباتی پشتیبانی میکنند. یک توپولوژی Clos (Fat-Tree) دو لایه بدون انسداد. تعداد سوئیچهای ستون (واحد 920-9B210-00FN-0D0) با تعداد آپلینکها از هر سوئیچ برگ و نسبت اشتراک بیش از حد مورد نظر (در حالت ایدهآل 1:1 برای HPC/AI) تعیین میشود.
مقیاسبندی به بیرون: برای مقیاسبندی خوشه، سوئیچهای برگ بیشتری اضافه کنید و به نسبت، واحدهای ستون
- 920-9B210-00FN-0D0 بیشتری را اضافه کنید تا نسبت بدون انسداد حفظ شود. آدرسدهی و مسیریابی ساختار تحت مدیریت UFM® بهطور یکپارچه مقیاس میشود. گرههای جداگانه را میتوان به NICهای NDR ارتقا داد و بلافاصله از پهنای باند کامل 400 گیگابیت بر ثانیه به ستون استفاده کرد. ماهیت
- سازگار سوئیچ از این محیط ناهمگن پشتیبانی میکند.کابلکشی و برق: برنامهریزی استقرار باید کابلهای نوری سازگار با NDR (به عنوان مثال، OSFP) را در نظر بگیرد.
- مشخصات 920-9B210-00FN-0D0 دادههای مصرف برق و حرارتی دقیق را برای طراحی دقیق برق و خنککننده مرکز داده ارائه میدهد.هنگامی که این راهحل برای فروش
در دسترس است، توصیه میشود با شرکای دارای گواهینامه درگیر شوید تا قیمت 920-9B210-00FN-0D0 و مقدار صحیح را برای برنامه مقیاسبندی خاص خود مدل کنید.5. توصیههای عملیات، نظارت، عیبیابی و بهینهسازیبرتری عملیاتی از طریق پلتفرم NVIDIA UFM® حاصل میشود. این مدیریت چرخه عمر جامعی را برای کل ساختار، از جمله هر سوئیچ
ارائه میدهد. UFM® تلهمتری بیدرنگ را در مورد سلامت سوئیچ، استفاده از پورت، دما، شمارندههای خطا و تجزیه و تحلیل عمیق الگوهای ترافیک در سطح برنامه، از جمله ماتریسهای ارتباطی MPI و RDMA ارائه میدهد.
- مدیریت خودکار ساختار: از تهیه اولیه و اعتبارسنجی کابل گرفته تا بهروزرسانیهای میانافزار و پشتیبانگیری از پیکربندی، UFM® وظایف روتین را خودکار میکند و خطای انسانی و سربار عملیاتی را کاهش میدهد.
- عیبیابی: ابزارهای پیشرفته میتوانند ناهنجاریهای عملکرد را مشخص کنند، جریانهای بدعملکردی را که باعث ازدحام میشوند شناسایی کنند و توپولوژی ساختار را تجسم کنند تا پیوندهای یا اجزای ناموفق را به سرعت جدا کنند.
- بهینهسازی مداوم: از بینشهای UFM® برای اندازهگیری صحیح بارهای کاری، تأیید اینکه عملکرد با انتظارات
- برگه اطلاعات مطابقت دارد و برنامهریزی برای ارتقاء ظرفیت آینده استفاده کنید. بررسی منظم معیارهای ازدحام و تأخیر برای حفظ عملکرد اوج ساختار کلیدی است.6. نتیجهگیری و ارزیابی ارزشاستقرار یک معماری ساختاری متمرکز بر سوئیچ InfiniBand
یک مزیت رقابتی اساسی را برای سازمانهایی که به محاسبات با کارایی بالا وابسته هستند، فراهم میکند. این راهحل فنی ارزش قابل اندازهگیری را در ابعاد مختلف ارائه میدهد:بعد ارزشنتیجه محقق شده
| عملکرد فنی | تأخیر زیر میکروثانیه قطعی، پهنای باند 400 گیگابیت بر ثانیه بدون انسداد و عملکرد بدون ازدحام برای RDMA و MPI. |
|---|---|
| شتابدهی کسبوکار/تحقیقات | کاهش زمان اجرا برنامه با 20-40٪، تسریع زمان کشف و چرخههای توسعه محصول. |
| بهرهوری عملیاتی | مدیریت یکپارچه، تهیه خودکار و تلهمتری عمیق، TCO را کاهش میدهد و زمان خرابی را به حداقل میرساند. |
| حفاظت از سرمایهگذاری | سازگاری به عقب و معماری مقیاسپذیر از سرمایهگذاریهای موجود محافظت میکند و در عین حال مسیری روشن را به سمت فناوریهای آینده ارائه میدهد. |
| به طور خلاصه، | 920-9B210-00FN-0D0 |
صرفاً یک جزء نیست، بلکه فعالکننده یک زیرساخت همگرا و با کارایی بالا است. این شبکه را از یک مسئولیت بالقوه به یک دارایی استراتژیک تبدیل میکند که قدرت خوشههای محاسباتی مدرن را بهطور کامل آزاد میکند.

