مقاله سفید فنی: راه‌حل سوئیچ اینفینی‌بند NVIDIA Mellanox 920-9B210-00FN-0D0

January 6, 2026

مقاله سفید فنی: راه‌حل سوئیچ اینفینی‌بند NVIDIA Mellanox 920-9B210-00FN-0D0
1. پیش‌زمینه پروژه و تحلیل نیازمندی‌ها

تکامل بارهای کاری محاسباتی به سمت آموزش هوش مصنوعی در مقیاس اگزاسکیل و شبیه‌سازی‌های HPC با وفاداری بالا، به‌طور اساسی گلوگاه عملکرد را از محاسبات به اتصال متقابل تغییر داده است. خوشه‌های مدرن وابسته به RDMA به یک ساختار نیاز دارند که نه تنها پهنای باند بالا، بلکه تأخیر فوق‌العاده کم قطعی، حداقل لرزش و مقیاس‌پذیری بی‌وقفه را نیز ارائه دهد. شبکه‌های قدیمی اغلب تأخیر متغیر، از دست رفتن بسته‌های ناشی از ازدحام و پیچیدگی مدیریت را معرفی می‌کنند که مستقیماً به زمان طولانی‌تر برای راه‌حل، استفاده ناکافی از منابع GPU/CPU و افزایش سربار عملیاتی ترجمه می‌شود.

این راه‌حل فنی نیازهای اصلی مراکز داده و تأسیسات تحقیقاتی نسل بعدی را برطرف می‌کند: ایجاد یک ساختار یکپارچه و با کارایی بالا که قادر به همگرایی بارهای کاری HPC کلاسیک (مبتنی بر MPI) و هوش مصنوعی مدرن (ارتباط جمعی) باشد. الزامات فنی کلیدی شامل تأخیر سوئیچ زیر میکروثانیه، توان عملیاتی بدون انسداد برای الگوهای ارتباطی همه به همه، کنترل ازدحام هوشمند و یک چارچوب مدیریتی است که دید عمیق و اتوماسیون را فراهم می‌کند. راه‌حل سوئیچ InfiniBand 920-9B210-00FN-0D0 برای برآورده کردن این استانداردهای دقیق مهندسی شده است.

2. طراحی کلی معماری شبکه/سیستم

معماری پیشنهادی یک ساختار ستون-برگ است که برای حداکثر پهنای باند دوطرفه و مقیاس‌پذیری طراحی شده است و بر اساس فناوری NDR 400Gb/s InfiniBand ساخته شده است. لایه ستون کاملاً از سوئیچ‌های بعد ارزش تشکیل شده است که هسته با پهنای باند فوق‌العاده بالا را تشکیل می‌دهد. لایه برگ می‌تواند شامل ترکیبی از سوئیچ‌های NDR یا HDR باشد که گره‌های محاسباتی (سرورهای GPU مانند سیستم‌های NVIDIA DGX، خوشه‌های CPU)، ذخیره‌سازی موازی با کارایی بالا (NVMe-oF) و گره‌های مدیریت را متصل می‌کند.

این طراحی جدا شده، تأخیر قابل پیش‌بینی را تضمین می‌کند و از اشتراک بیش از حد در داخل ساختار جلوگیری می‌کند. اصول معماری کلیدی عبارتند از:

  • ساختار یکپارچه: یک شبکه واحد برای ترافیک محاسباتی (شرق-غرب) و ذخیره‌سازی، ساده‌سازی مدیریت و کاهش CAPEX.
  • عملکرد بدون ضرر: استفاده از کنترل ازدحام بومی InfiniBand و مدیریت جریان ترافیک برای تضمین عدم از دست رفتن بسته، که برای عملکرد RDMA و MPI حیاتی است.
  • شبکه‌سازی تعریف‌شده توسط نرم‌افزار: ادغام با NVIDIA Cumulus Linux و پلتفرم UFM® امکان اتوماسیون ساختار قابل برنامه‌ریزی و مدیریت مبتنی بر سیاست را فراهم می‌کند.
3. نقش و ویژگی‌های کلیدی NVIDIA Mellanox 920-9B210-00FN-0D0

سوئیچ 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR سنگ بنای استراتژیک این معماری است که به عنوان ستون با کارایی بالا عمل می‌کند. نقش آن فراتر از سوئیچینگ ساده است؛ این موتور هوشمندی است که حرکت بهینه داده‌ها را تضمین می‌کند.

ویژگی‌های فنی کلیدی آن، همانطور که در برگه اطلاعات 920-9B210-00FN-0D0 رسمی آمده است، مستقیماً بهینه‌سازی تأخیر کم را برطرف می‌کند:

  • سوئیچینگ Cut-Through و تأخیر فوق‌العاده کم: این سوئیچ از معماری سوئیچینگ پیشرفته cut-through استفاده می‌کند و به تأخیر پورت به پورت کمتر از 100 نانوثانیه دست می‌یابد. این امر برای کاهش تأخیر کلی سرتاسری عملیات RDMA بسیار مهم است.
  • پهنای باند NDR 400Gb/s: هر پورت 400 گیگابیت بر ثانیه را ارائه می‌دهد و فضای سر مورد نیاز را برای جلوگیری از ازدحام در طول بارهای کاری اوج مانند نقاط بازرسی آموزش هوش مصنوعی توزیع‌شده یا عملیات MPI_allreduce در مقیاس بزرگ فراهم می‌کند.
  • مسیردهی تطبیقی و کنترل ازدحام: فناوری Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ v3 انویدیا که در سوئیچ تعبیه شده است، عملیات جمعی را از CPU بارگیری می‌کند و سربار همگام‌سازی را به شدت کاهش می‌دهد. این امر همراه با مسیریابی تطبیقی پویا، از نقاط داغ جلوگیری می‌کند و استفاده متعادل از ساختار را تضمین می‌کند.
  • سازگاری به عقب و جلو: این سوئیچ جزء جدایی‌ناپذیر یک استراتژی مهاجرت روان است. این کاملاً با تجهیزات HDR (200Gb/s) و EDR (100Gb/s) موجود سازگار است و امکان ارتقاء مرحله‌ای را فراهم می‌کند. مشورت با کابل‌کشی و برق: دقیق برای برنامه‌ریزی اتصال پورت و انواع کابل بسیار مهم است.هنگامی که این راه‌حل استقرار اولیه باید از یک رویکرد ماژولار "پاد" پیروی کند. یک پاد شروع معمولی ممکن است از دو سوئیچ
920-9B210-00FN-0D0

در نقش ستون برای افزونگی استفاده کند که به چندین سوئیچ برگ HDR یا NDR متصل شده‌اند و از ده‌ها گره محاسباتی پشتیبانی می‌کنند. یک توپولوژی Clos (Fat-Tree) دو لایه بدون انسداد. تعداد سوئیچ‌های ستون (واحد 920-9B210-00FN-0D0) با تعداد آپلینک‌ها از هر سوئیچ برگ و نسبت اشتراک بیش از حد مورد نظر (در حالت ایده‌آل 1:1 برای HPC/AI) تعیین می‌شود.

مقیاس‌بندی به بیرون: برای مقیاس‌بندی خوشه، سوئیچ‌های برگ بیشتری اضافه کنید و به نسبت، واحدهای ستون

  • 920-9B210-00FN-0D0 بیشتری را اضافه کنید تا نسبت بدون انسداد حفظ شود. آدرس‌دهی و مسیریابی ساختار تحت مدیریت UFM® به‌طور یکپارچه مقیاس می‌شود. گره‌های جداگانه را می‌توان به NICهای NDR ارتقا داد و بلافاصله از پهنای باند کامل 400 گیگابیت بر ثانیه به ستون استفاده کرد. ماهیت
  • سازگار سوئیچ از این محیط ناهمگن پشتیبانی می‌کند.کابل‌کشی و برق: برنامه‌ریزی استقرار باید کابل‌های نوری سازگار با NDR (به عنوان مثال، OSFP) را در نظر بگیرد.
  • مشخصات 920-9B210-00FN-0D0 داده‌های مصرف برق و حرارتی دقیق را برای طراحی دقیق برق و خنک‌کننده مرکز داده ارائه می‌دهد.هنگامی که این راه‌حل برای فروش

در دسترس است، توصیه می‌شود با شرکای دارای گواهی‌نامه درگیر شوید تا قیمت 920-9B210-00FN-0D0 و مقدار صحیح را برای برنامه مقیاس‌بندی خاص خود مدل کنید.5. توصیه‌های عملیات، نظارت، عیب‌یابی و بهینه‌سازیبرتری عملیاتی از طریق پلتفرم NVIDIA UFM® حاصل می‌شود. این مدیریت چرخه عمر جامعی را برای کل ساختار، از جمله هر سوئیچ

920-9B210-00FN-0D0

ارائه می‌دهد. UFM® تله‌متری بی‌درنگ را در مورد سلامت سوئیچ، استفاده از پورت، دما، شمارنده‌های خطا و تجزیه و تحلیل عمیق الگوهای ترافیک در سطح برنامه، از جمله ماتریس‌های ارتباطی MPI و RDMA ارائه می‌دهد.

  • مدیریت خودکار ساختار: از تهیه اولیه و اعتبارسنجی کابل گرفته تا به‌روزرسانی‌های میان‌افزار و پشتیبان‌گیری از پیکربندی، UFM® وظایف روتین را خودکار می‌کند و خطای انسانی و سربار عملیاتی را کاهش می‌دهد.
  • عیب‌یابی: ابزارهای پیشرفته می‌توانند ناهنجاری‌های عملکرد را مشخص کنند، جریان‌های بدعملکردی را که باعث ازدحام می‌شوند شناسایی کنند و توپولوژی ساختار را تجسم کنند تا پیوندهای یا اجزای ناموفق را به سرعت جدا کنند.
  • بهینه‌سازی مداوم: از بینش‌های UFM® برای اندازه‌گیری صحیح بارهای کاری، تأیید اینکه عملکرد با انتظارات
  • برگه اطلاعات مطابقت دارد و برنامه‌ریزی برای ارتقاء ظرفیت آینده استفاده کنید. بررسی منظم معیارهای ازدحام و تأخیر برای حفظ عملکرد اوج ساختار کلیدی است.6. نتیجه‌گیری و ارزیابی ارزشاستقرار یک معماری ساختاری متمرکز بر سوئیچ InfiniBand
NVIDIA Mellanox 920-9B210-00FN-0D0

یک مزیت رقابتی اساسی را برای سازمان‌هایی که به محاسبات با کارایی بالا وابسته هستند، فراهم می‌کند. این راه‌حل فنی ارزش قابل اندازه‌گیری را در ابعاد مختلف ارائه می‌دهد:بعد ارزشنتیجه محقق شده

عملکرد فنی تأخیر زیر میکروثانیه قطعی، پهنای باند 400 گیگابیت بر ثانیه بدون انسداد و عملکرد بدون ازدحام برای RDMA و MPI.
شتاب‌دهی کسب‌وکار/تحقیقات کاهش زمان اجرا برنامه با 20-40٪، تسریع زمان کشف و چرخه‌های توسعه محصول.
بهره‌وری عملیاتی مدیریت یکپارچه، تهیه خودکار و تله‌متری عمیق، TCO را کاهش می‌دهد و زمان خرابی را به حداقل می‌رساند.
حفاظت از سرمایه‌گذاری سازگاری به عقب و معماری مقیاس‌پذیر از سرمایه‌گذاری‌های موجود محافظت می‌کند و در عین حال مسیری روشن را به سمت فناوری‌های آینده ارائه می‌دهد.
به طور خلاصه، 920-9B210-00FN-0D0

صرفاً یک جزء نیست، بلکه فعال‌کننده یک زیرساخت همگرا و با کارایی بالا است. این شبکه را از یک مسئولیت بالقوه به یک دارایی استراتژیک تبدیل می‌کند که قدرت خوشه‌های محاسباتی مدرن را به‌طور کامل آزاد می‌کند.