راه‌حل فنی سوئیچ اینفینی‌بند Mellanox (NVIDIA) 920-9B110-00FH-0D0|بهینه‌سازی اتصال متقابل با تأخیر کم

January 5, 2026

راه‌حل فنی سوئیچ اینفینی‌بند Mellanox (NVIDIA) 920-9B110-00FH-0D0|بهینه‌سازی اتصال متقابل با تأخیر کم

1. پیش زمینه پروژه و تجزیه و تحلیل نیازهای

استقرار و مقیاس بندی خوشه های محاسباتی مدرن برای آموزش هوش مصنوعی و بار کاری HPC چالش های منحصر به فرد شبکه را ارائه می دهد.شبکه های سنتی مبتنی بر TCP/IP تاخیر قابل توجهی و هزینه های اضافی CPU را ایجاد می کنندالزامات کلیدی برای یک راه حل اتصال نسل بعدی عبارتند از: تاخیر زیر میکرو ثانیه تعیین کننده برای جلوگیری از توقف GPU،پهنای باند دوقطبی بالا برای الگوهای ارتباطات همه به همه، محاسبات مقیاس پذیر در شبکه برای کاهش بار عملیات جمعی و مدیریت ساختار قوی برای ساده سازی عملیاتی.

درNVIDIA Mellanox 920-9B110-00FH-0D0طراحی شده است تا این خواسته های دقیق را برآورده کند، و پایه ای را برای یک عملکرد و کارآمد ایجاد کند.920-9B110-00FH-0D0 راه حل OPN InfiniBand switchاین سند یک طرح فنی جامع برای استفاده از آن را نشان می دهد.

2طراحی کلی معماری شبکه/سیستم

معماری پیشنهادی یک توپولوژی درخت چربی غیر مسدود کننده است که استاندارد واقعی برای ساخت خوشه های قابل پیش بینی و پهنای باند بالا HPC و AI است.این طراحی تضمین می کند شمارش هپ سازگار و تاخیر بین هر دو گره، حذف اشتراک بیش از حد و نقاط گرم. معماری بر روی یک اکوسیستم کامل و بهینه شده NVIDIA ساخته شده است.

  • لایه محاسباتی:سیستم های NVIDIA DGX یا HGX، یا سرورهای GPU معادل با NVIDIA ConnectX-7 NIC.
  • لایه اتصال:پارچه ای همگن از920-9B110-00FH-0D0سوئیچ هایی که به عنوان سوئیچ های برگ (Top-of-Rack) و ستون فقرات عمل می کنند.
  • لایه مدیریت و ارکستر سازی:NVIDIA UFM® برای مدیریت پارچه، با برنامه ریزان خوشه ای مانند Slurm یا Kubernetes از طریق NVIDIA Magnum IO استیک ادغام شده است.

این معماری از انتهای به انتهای عملکرد بهینه را برای ارتباطات RDMA و GPUDirect تضمین می کند و یک "فابریک به عنوان یک منبع محاسباتی" یکپارچه ایجاد می کند.

3نقش 920-9B110-00FH-0D0 و ویژگی های فنی کلیدی

در این معماری،920-9B110-00FH-0D0به عنوان واحد اصلی سطح داده عمل می کند. نقش آن فراتر از انتقال ساده بسته به یک عنصر محاسباتی فعال تبدیل می شود.

ستون های فنی اصلی:

  • تاخیر بسیار کم و پهنای باند بالا:با قدرت920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDRASIC، آن را ارائه می دهد صنعت پیشرو پورت به پورت تاخیر و سرعت سیم کامل 200Gb / s در هر پهنای باند پورت، که برای ترافیک RDMA حیاتی است.
  • محاسبات درون شبکه (SHARP):سخت افزار سوئیچ عملیات جمعی MPI و NCCL را با انجام جمع آوری داده ها در داخل شبکه تسریع می کند. این به طور چشمگیری زمان بیکار GPU و هزینه CPU را کاهش می دهد.
  • کنترل فشرده سازی پیشرفته:مکانیسم های مسیر ساز و کنترل ترافیک به طور پویا جریان ترافیک را مدیریت می کنند.جلوگیری از قطعات بسته و تضمین توزیع منصفانه پهنای باند در طول سناریوهای انکست رایج در آموزش هوش مصنوعی.
  • تلمتري و ديدگي:پشتیبانی یکپارچه از زیرساخت های تله متری NVIDIA بینش عمیق در مورد الگوهای ترافیک، اشغال بافر و سلامت پیوند را فراهم می کند، که برای تنظیم عملکرد ضروری است.

مهندسان بايد با مسئول مشورت کنندصفحه اطلاعات 920-9B110-00FH-0D0برای جزئیاتمشخصات 920-9B110-00FH-0D0بر روی قدرت، خنک کننده، و تنظیمات پورت.

4توصیه های تعبیه و مقیاس بندی

تعینات با تجزیه و تحلیل دقیق920-9B110-00FH-0D0 سازگاریک واحد مقیاس بندی معمولی یک "پد" ساخته شده با یک درخت چربی غیر مسدود کننده است.

مثال: 512-GPU Cluster Pod

  • سطح برگ:پخش920-9B110-00FH-0D0سوئیچ هایی که به صورت Top-of-Rack (ToR) هستند، هر کدام تا 16 سرور GPU را متصل می کنند (به عنوان مثال، سیستم های 8x DGX A100).
  • سطح ستون فقرات:لایه دوم920-9B110-00FH-0D0سوئیچ ها تمام سوئیچ های برگ را به هم متصل می کند و پهنای باند دوقطبی کامل را فراهم می کند.
  • کابل کشی:از کابل های HDR QSFP56 (فعال یا غیرفعال) برای تمام اتصال های 200Gb/s بین سوئیچ و سرور استفاده کنید.

مقیاس گذاری فراتر از یک پوپ:چند پوشه را می توان با استفاده از سوئیچ های اختصاصی ستون فقرات یا گسترش سلسله مراتب درخت چربی، با استفاده از ریشه های بالا از ستون فقرات به یکدیگر متصل کرد.920-9B110-00FH-0D0.920-9B110-00FH-0D0 InfiniBand سوئیچ OPNیک نقشه راه روشن برای قابلیت همکاری قطعات در طول توسعه را ارائه می دهد.

5. عملیات، نظارت، رفع مشکل و بهینه سازی

مدیریت پیشگیرانه برای حفظ عملکرد بالای پارچه بسیار مهم است. NVIDIA UFM® بستر مدیریت مرکزی توصیه شده است.

منطقه عملیاتی ابزار / ویژگی سود
تامین و نظارت بر پارچه UFM® Device Manager & Telemetry مدیریت دستگاه های UFM® و تله متری تدارکات بدون لمس، داشبورد های سلامت در زمان واقعی و جمع آوری معیارهای عملکرد.
رفع مشکل و تحلیل علت اصلی UFM® Event Analyzer و تشخیص کابل شناسایی ناهنجاری توسط هوش مصنوعی، گزارش حادثه های دقیق، و تست کابل از راه دور.
بهینه سازی عملکرد UFM® Performance Advisor و تحلیل های SHARP نقاط ازدحام را شناسایی می کند، مسیریابی را بهینه می کند و کارایی محاسبات در شبکه را نظارت می کند.

به روز رسانی منظم نرم افزار و رعایت بهترین شیوه های ذکر شده در اسناد سوئیچ ضروری است. برای مسائل مانند عملکرد کاهش یافته RDMA،جریان تشخیصی باید با UFM® telemetry شروع شود.، تماميت کابل را بررسي کنيد و تنظیمات SHARP و کنترل ازدحام را بررسي کنيد.

6نتیجه گیری و ارزیابی ارزش

راه اندازی یک ارتباط بین گروه ها بر اساسملانوکس (NVIDIA) 920-9B110-00FH-0D0ارائه می دهد آینده ثابت، پایه عملکرد بالا برای RDMA، HPC، و AI حجم کار. پیشنهاد ارزش آن چند وجهی است: آن را به حداکثر رساندن استفاده از GPU و ROI با به حداقل رساندن هزینه های ارتباطی.,امکان رشد مقیاس پذیر خوشه ها را فراهم می کند و عملیات را از طریق مدیریت یکپارچه و تلمیتر ساده می کند.

در حالی که920-9B110-00FH-0D0 قیمتاین یک سرمایه گذاری فوق العاده است، کل هزینه مالکیت (TCO) با توجه به کاهش چشمگیر زمان تکمیل کار، بهبود بهره وری محققان، مطلوب است.و مقیاس بندی کارآمد که از طراحی مجدد پارچه های پرهزینه جلوگیری می کندسازمان های ارزیابی کننده920-9B110-00FH-0D0 برای فروشاین راه حل فنی نقشه ای را برای باز کردن پتانسیل کامل زیرساخت های محاسباتی شتاب دهنده فراهم می کند.