Mellanox InfiniBand HPC Solution: پیشرفت در عملکرد شبکه های ابر رایانه ای NVIDIA

راهکارهای شبکه محاسبات با کارایی بالا (HPC): اینفینی‌بند عملکرد فوق‌العاده محاسباتی را ممکن می‌سازد.

September 27, 2025

راه حل های شبکه محاسباتی با عملکرد بالا: چگونه Mellanox InfiniBand باعث پیشرفت عملکرد ابر محاسباتی می شود

1عصر جدید تقاضاهای محاسباتی

مرزهای علم، مهندسی و هوش مصنوعی با استفاده از محاسبات با کارایی بالا (HPC) به جلو کشیده می شوند.از شبیه سازی مدل های آب و هوایی و کشف داروهای جدید تا آموزش مدل های بزرگ تولید هوش مصنوعی، پیچیدگی و مقیاس این حجم کار به صورت نمایی در حال افزایش است.شبکه های ابر رایانه ایزیرساخت ها، که باید به طور کارآمد مجموعه های داده بزرگ را بین هزاران گره محاسباتی بدون تبدیل شدن به یک گلوی فشرده منتقل کنند.اين سيستم اعصاب مرکزي ابر کامپيوتر مدرن است.

2. تنگنای شبکه های حیاتی در HPC

معماری های شبکه سنتی اغلب نمی توانند با خواسته های محاسبات exascale و AI مطابقت داشته باشند. معماران و محققان HPC با چندین چالش مداوم روبرو هستند:

حساسيت تاخير:برنامه های موازی به شدت متصل که از Message Passing Interface (MPI) استفاده می کنند، نسبت به تأخیر بسیار حساس هستند. تاخیر میکروس ثانیه ای می تواند به طور چشمگیری زمان کلی برای حل مسئله را کند کند.
سرعت قابل پیش بینی:ازدحام شبکه می تواند منجر به عملکرد نامنظم شود، که منجر به گره های محاسباتی می شود که در حالی که منتظر داده ها هستند، صرفه جویی در منابع محاسباتی ارزشمند و افزایش زمان تکمیل کار می کنند.
عملیات های جمعی ناکارآمد:عملیات مانند کاهش و موانع که شامل چندین گره می شود می تواند مقدار قابل توجهی از منابع CPU میزبان را مصرف کند، چرخه ها را از وظایف محاسباتی اصلی منحرف می کند.
محدوده مقیاس پذیری:بسیاری از شبکه ها برای حفظ عملکرد و تأخیر مداوم تلاش می کنند زیرا اندازه خوشه ها به ده ها هزار گره افزایش می یابد و مانع از مسیر exascale و فراتر از آن می شود.

3راه حل Mellanox InfiniBand: یک معماری از انتهای به انتهای

NVIDIAملانوکس InfiniBandارائه می دهد یک هدف ساخته شده، پای به پای پلت فرم شبکه طراحی شده به طور خاص برای غلبه بر این مشکلاتHPCاین بیش از یک NIC است؛ این یک پارچه جامع است که به طور هوشمندانه حرکت داده ها و محاسبات را تسریع می کند.

نوآوری های تکنولوژیکی کلیدی:

محاسبات شبکه ای (NVIDIA SHARPTM):این یک ویژگی انقلابی است که InfiniBand را متمایز می کند. پروتکل جمع آوری و کاهش سلسله مراتب مقیاس پذیر (SHARP) عملیات جمعی (به عنوان مثال ، MPI Allreduce ،مانع) از CPU به شبکه سوئیچاین به طور چشمگیری تاخیر را کاهش می دهد و منابع CPU میزبان را برای محاسبات برنامه آزاد می کند.
دسترسی مستقیم به حافظه از راه دور (RDMA): ملانوکس InfiniBandپشتیبانی RDMA بومی دارد، که اجازه می دهد داده ها به طور مستقیم از حافظه یک گره به گره دیگر بدون دخالت CPU منتقل شوند.این تکنیک "بایپاس هسته" برای دستیابی به تاخیر بسیار کم و پهنای باند بالا ضروری است.
مسیر سازگاری و کنترل ازدحام:این پارچه به طور پویا ترافیک را در اطراف نقاط گرم هدایت می کند و استفاده یکنواخت از شبکه را تضمین می کند و از ازدحام جلوگیری می کند قبل از اینکه بر عملکرد برنامه تأثیر بگذارد.این منجر به عملکرد قابل پیش بینی و ثابت می شود.
یکپارچه سازی GPU (GPUDirect®):فن آوری هایی مانند GPUDirect RDMA اجازه می دهد تا داده ها به طور مستقیم بین حافظه GPU سرورهای مختلف در سراسر بافت InfiniBand جریان داشته باشند،که برای سرعت بخشیدن به آموزش چند GPU و چند گره هوش مصنوعی و حجم کار محاسبات علمی ضروری است..

4نتایج قابل اندازه گیری و افزایش عملکرد

استفاده ازملانوکس InfiniBandدر مراکز برتر ابر محاسبات و موسسات تحقیقاتی نتایج چشمگیر و قابل اندازه گیری را به دست آورده است:

متریک	بهبود با Mellanox InfiniBand	تاثیر بر بار کاری HPC
عملکرد برنامه	تا 2.5 برابر سریعتر	کاهش زمان راه حل برای شبیه سازی های پیچیده و مشاغل آموزش هوش مصنوعی.
تاخیر	زیر یک میکرو ثانیه از انتها به انتها	تقریباً تاخیر در ارتباط با برنامه های MPI را از بین می برد.
استفاده از CPU	تا ۳۰ درصد کاهش هزینه های CPU	ميليون ها ساعت هسته ي پردازنده رو براي محاسبات به جاي ارتباطات آزاد ميکنه
مقیاس پذیری	پشتیبانی در خوشه ها با 10،000+ گره	راه اثبات شده ای برای پیاده سازی محاسبات exascale را فراهم می کند.
استفاده از پارچه	بیش از ۹۰ درصد کارایی	حداکثر بازده سرمایه گذاری زیرساخت ها را فراهم می کند.

5نتیجه گیری: تقویت نسل بعدی کشف

ملانوکس InfiniBandخود را به عنوان استاندارد طلا برایشبکه های ابر رایانه ای، ارائه عملکرد لازم، مقیاس پذیری و هوش مورد نیاز از جهان سخت ترینHPCو بار کاری هوش مصنوعی. با حل تنگه های فشرده شبکه ای بحرانی از طریق نوآوری هایی مانند محاسبات در شبکه، محققان و دانشمندان را قادر می سازد تا نتایج پیشرفته را سریعتر به دست آورند.این فقط یک ارتباط نیستاین یک شتاب دهنده ضروری برای دانش و نوآوری انسانی است.