راه حل شتابدهی آموزش هوش مصنوعی: ادغام DPU و خوشههای GPU Mellanox
September 28, 2025
با رشد نمایی مدل های هوش مصنوعی در اندازه و پیچیدگی، معماری های سنتی مراکز داده به محدودیت های خود می رسند.آموزش هوش مصنوعیکارآمد ساخته شده استشبکه گرافیکاین خلاصه راه حل بررسی می کند که چگونه یکپارچه سازی استراتژیکMellanox DPU(اتاق پردازش داده ها) در خوشه های GPU به مشکلات بحرانی می پردازد، هزینه های بالای CPU میزبان را کاهش می دهد و سطوح جدیدی از مقیاس پذیری و کارایی را برای بار های کاری AI در مقیاس بزرگ باز می کند.
عصر مدل های تریلیون پارامتر به طور محکم خوشه GPU را به عنوان موتور هوش مصنوعی مدرن تاسیس کرده است. با این حال، همانطور که خوشه ها به هزاران GPU مقیاس می یابند، یک مشکل جدید ظهور می کند:پردازنده سرور میزبان با حرکت داده غرق می شود، برنامه ریزی و وظایف ارتباطی. این هزینه های اضافی، که شامل شبکه، ذخیره سازی I / O و پروتکل های امنیتی،می تواند بیش از ۳۰ درصد از چرخه های CPU سرور را مصرف کند، چرخه هایی که برای روند آموزش واقعی هوش مصنوعی بسیار مورد نیاز است.این ناکارآمدی به طور مستقیم زمان آموزش و کل هزینه مالکیت (TCO) را افزایش می دهد.
گلوخونه اصلی در مقیاس بزرگآموزش هوش مصنوعیدیگر فقط FLOPS خام نیست؛ این ناکارآمدی سیستماتیک در خط لوله داده ها است. چالش های اصلی شامل:
- قحطي سي پي يو:پردازنده های میزبان با مدیریت استیک های شبکه (TCP / IP) ، درایورهای ذخیره سازی و مجازی سازی گرفتار شده اند و منابع کمتری را برای چارچوب هوش مصنوعی باقی می گذارند.
- گلوخونه های I/O:انتقال مجموعه داده های گسترده از ذخیره سازی به حافظه GPU باعث ایجاد ازدحام در بس و شبکه PCIe می شود و منجر به زمان بیکار GPU می شود.
- هزينه هاي عمومي امنيت:در محیط های چند مستاجر، استفاده از سیاست های رمزنگاری و امنیت بیشتر بر CPU میزبان تاثیر می گذارد.
- ناکارآمدشبکه گرافیک:عملیات ارتباطات جمعی (مانند All-Reduce) در نرم افزار انجام می شود، ایجاد تأخیر و اضطراب که آموزش هماهنگ را کند می کند.
این چالش ها سناریویی را ایجاد می کنند که در آن GPU های گران قیمت در انتظار داده ها باقی می مانند و به طور چشمگیری استفاده کلی و ROI از زیرساخت های هوش مصنوعی را کاهش می دهند.
درMellanox DPU(در حال حاضر بخشی از خط محصول BlueField NVIDIA) یک پردازنده انقلابی است که به طور خاص برای رفع این تنگنای زیرساخت ها طراحی شده است.این فقط یک کارت رابط شبکه (NIC) نیست بلکه یک سیستم کاملا قابل برنامه ریزی بر روی تراشه (SoC) است که شامل هسته های قدرتمند Arm و موتورهای شتاب دهنده تخصصی استبا استفاده از DPU در هر سرور، سازمان ها می توانند یک لایه زیرساخت تسریع شده سخت افزاری ایجاد کنند.
- بارگذاری زیرساخت ها:درMellanox DPUاین کار شامل TCP/IP، NVMe over Fabrics (NVMe-oF) ، رمزگذاری و عملکردهای فایروال می شود.این "آزاد کردن" هسته های CPU به طور انحصاری برای برنامه های کاربردی هوش مصنوعی.
- ارتباطات تسریع شده:DPU دارای دسترسی مستقیم به حافظه از راه دور (RDMA) است که به GPU ها امکان دسترسی مستقیم به حافظه سایر GPU ها را در شبکه با تاخیر بسیار کم می دهد.سنگ بنای عملکرد بالاشبکه گرافیک.
- مقیاس پذیری بهبود یافته:با CPU میزبان که از وظایف زیرساخت آزاد شده است، مقیاس بندی یک خوشه به افزایش خطی در هزینه های CPU منجر نمی شود.این اجازه می دهد تا برای مقیاس بندی کارآمدتر و قابل پیش بینی به تعداد گره های عظیم.
- امنیت بدون اعتماد:DPU یک مدل امنیتی "صفر اعتماد" را با ارائه روت اعتماد جدا شده از سخت افزار، مدیریت کلید و توانایی اجرای برنامه های امنیتی در یک محیط جدا شده بر روی DPU فراهم می کند.جدا از میزبان.
ادغامMellanox DPUبهبود فوری و قابل اندازه گیری را در شاخص های کلیدی عملکرد به ارمغان می آورد. داده های زیر بر اساس معیارهای صنعت و پیاده سازی های واقعی است:
| متریک | سرور سنتی (محور پردازنده) | سرور با Mellanox DPU | بهبود |
|---|---|---|---|
| هسته های CPU در دسترس برای هوش مصنوعی | 70 درصد | >95% | ~36٪ افزایش |
| تمام کم کردن تاخیر (256 GPU) | ~500 μs | ~180 μs | 64 درصد کاهش |
| خروجی I/O ذخیره | ~12 گیگابایت در ثانیه | ~40 گیگابایت در ثانیه | 233 درصد افزایش |
| کل زمان آموزش (BERT-Large) | ~60 ساعت | 42 ساعت | 30% کاهش |
این دستاوردهای عملکردی به طور مستقیم به ارزش کسب و کار تبدیل می شوند: زمان سریع تر مدل سازی، هزینه های پایین تر ابر / محاسبات،و توانایی مقابله با مشکلات پیچیده تر در یک زیرساخت.
مسیر هوش مصنوعی روشن است: مدل ها همچنان رشد خواهند کرد و خوشه ها حتی بیشتر توزیع خواهند شد.روش سنتی از پرتاب CPU های بیشتر به مشکل زیرساخت ها پایدار نیست.Mellanox DPUنشان دهنده یک تغییر اساسی معماری است، ایجاد یک سطح زیرساخت اختصاصی و شتاب دهنده است که به خوشه های GPU اجازه می دهد تا به سطوح بی سابقه ای از عملکرد و کارایی برسند.این یک جزء حیاتی برای هر سازمانی است که به دنبال حفظ یک مزیت رقابتی در تحقیق و توسعه هوش مصنوعی است..

