Mellanox (NVIDIA) 920-9B110-00FH-0D0 تمرین کاربردی سوئیچ اینفینیبند
January 5, 2026
پیش زمینه و چالش: گلوی فشنی شبکه در یک مرکز تحقیقاتی چند حالت هوش مصنوعی
یک مرکز تحقیقاتی AI چند منظوره پیشرو، که کار آن شامل آموزش مدل های زبان بزرگ، شبیه سازی های محاسباتی علمی و توسعه سیستم های مستقل است، با یک دیوار مقیاس پذیری بحرانی روبرو بود.بافت 100Gb / s Ethernet موجود آنها تحت فشار شدید، الگوهای ارتباطی همه به همه از مشاغل آموزش توزیع شده. چالش های اصلی سه گانه بودند: زمان های غیرقابل پیش بینی تکمیل کار به دلیل ازدحام شبکه،استفاده ناکارآمد از GPU اغلب کمتر از 60٪، و عدم توانایی در مقیاس بیش از 256 گره بدون کاهش شدید عملکرد. نیاز به یک پارچه تعیین کننده و با تاخیر بسیار کم بسیار مهم بود.
راه حل و پیاده سازی: معماری با 920-9B110-00FH-0D0 InfiniBand Switch OPN
مهندسان این مرکز یک ستون فقرات خوشه ای جدید را بر اساس ** NVIDIA Mellanox 920-9B110-00FH-0D0 ** طراحی کردند. هسته ی راه حل آنها یک توپولوژی دو لایه ای بدون مسدود کردن درخت چربی بود،استفاده از این سوئیچ ها به عنوان گره های برگ و ستون فقراتهسته **920-9B110-00FH-0D0 MQM8790-HS2F 200Gb / s HDR** پهنای باند دو طرفه و تراکم پورت لازم را برای اتصال بیش از 1000 GPU NVIDIA A100 و H100 به صورت یکپارچه فراهم کرد.
تصمیمات کلیدی در مورد اعزام شامل:
- بنیاد پارچه:استاندارد سازی بر روی **920-9B110-00FH-0D0** یک پارچه همگن و با عملکرد بالا را تضمین می کند، مدیریت و رفع مشکل را ساده می کند.
- فعال کردن محاسبات درون شبکه:پروتکل جمع آوری و کاهش سلسله مراتب مقیاس پذیر NVIDIA (SHARP) TM در سراسر بافت فعال شد و عملیات جمعی (مانند All-Reduce) را از CPU به شبکه سوئیچ منتقل کرد.
- RDMA از آخر به آخر:اکوسیستم **920-9B110-00FH-0D0 سازگار**، از جمله آداپتورهای ConnectX-7، یک مسیر RDMA واقعی (Remote Direct Memory Access) را از انتهای به انتهای،دور زدن سیستم عامل و CPU برای حرکت داده ها.
- مدیریت هوشمند:این پارچه توسط NVIDIA UFM® مدیریت شده است که از طریق آن از طریق دوربین سنجی عمیق و بینش های مبتنی بر هوش مصنوعی برای نظارت فعال بر سلامت و بهینه سازی عملکرد استفاده می شود.
نتایج و مزایای: سود قابل اندازه گیری در عملکرد و کارایی
استفاده از **920-9B110-00FH-0D0 InfiniBand switch OPN solution ** نتایج تحولآمیز را به ارمغان آورد و به طور مستقیم به چالش های اولیه رسید.معیارهای عملکرد قبل و بعد از مهاجرت ثبت شدند.
| متریک | شبکه قبلی | با 920-9B110-00FH-0D0 پارچه | بهبود |
|---|---|---|---|
| استفاده متوسط از GPU | ~58% | 92 درصد | +59٪ |
| تمام کم کردن تاخیر (4KB) | 15 μs | 5 μs | کاهش 67٪ |
| زمان آموزش مدل بزرگ (مقایسه) | میزان اولیه (100٪) | ۴۱% از خط شروع | 2.4 برابر سریعتر |
| سقف مقیاس پذیری خوشه | 256 گره | 1024+ گره (تایید شده) | مقیاس 4x+ |
این مزایای فراتر از سرعت خام گسترش یافت. بهره وری عملیاتی به دلیل زمان های قابل پیش بینی تکمیل کار بهبود یافت. محققان اکنون می توانند آزمایشات بزرگتر و پیچیده تر را با اطمینان انجام دهند.سرعت بخشیدن به نوآوریمشخصات قوی **920-9B110-00FH-0D0**، که در صفحه اطلاعات رسمی آن توضیح داده شده است، اطمینان مهندسی مورد نیاز برای این کار مهم را فراهم می کند.
نتیجه گیری و چشم انداز آینده
این مورد کاربرد به وضوح نشان می دهد که **Mellanox (NVIDIA) 920-9B110-00FH-0D0** بسیار بیشتر از یک قطعه سوئیچ است.این یک ابزار محاسباتی برای زیرساخت های مدرن هوش مصنوعی و HPC است.. با ارائه تاخیر کم تعیین کننده ، استفاده از محاسبات در شبکه و فعال کردن RDMA بدون درز ، عملکرد خوشه را از یک گلوی فشرده به یک مزیت رقابتی تبدیل می کند.
موفقیت این راه اندازی ارزش **920-9B110-00FH-0D0 InfiniBand switch OPN را نشان می دهد.اصول معماری فعال شده توسط این تغییر تبدیل به استاندارد واقعی خواهد شدبرای سازمان هایی که **920-9B110-00FH-0D0 برای فروش ** و **920-9B110-00FH-0D0 قیمت ** را با کل هزینه مالکیت ارزیابی می کنند،این پرونده یک استدلال قانع کننده برای سرمایه گذاری در یک شبکه ارائه می دهد که تمام پتانسیل هر دلار محاسباتی صرف شده را باز می کند.

