راه حل شتاب‌دهی آموزش هوش مصنوعی: ادغام DPU و خوشه‌های GPU Mellanox

September 28, 2025

راه حل شتاب‌دهی آموزش هوش مصنوعی: ادغام DPU و خوشه‌های GPU Mellanox
راه حل تسریع آموزش هوش مصنوعی: ادغام DPU Mellanox با خوشه های GPU برای عملکرد بی سابقه

با رشد نمایی مدل های هوش مصنوعی در اندازه و پیچیدگی، معماری های سنتی مراکز داده به محدودیت های خود می رسند.آموزش هوش مصنوعیکارآمد ساخته شده استشبکه گرافیکاین خلاصه راه حل بررسی می کند که چگونه یکپارچه سازی استراتژیکMellanox DPU(اتاق پردازش داده ها) در خوشه های GPU به مشکلات بحرانی می پردازد، هزینه های بالای CPU میزبان را کاهش می دهد و سطوح جدیدی از مقیاس پذیری و کارایی را برای بار های کاری AI در مقیاس بزرگ باز می کند.

پیش زمینه: الگوی جدید محاسباتی برای هوش مصنوعی

عصر مدل های تریلیون پارامتر به طور محکم خوشه GPU را به عنوان موتور هوش مصنوعی مدرن تاسیس کرده است. با این حال، همانطور که خوشه ها به هزاران GPU مقیاس می یابند، یک مشکل جدید ظهور می کند:پردازنده سرور میزبان با حرکت داده غرق می شود، برنامه ریزی و وظایف ارتباطی. این هزینه های اضافی، که شامل شبکه، ذخیره سازی I / O و پروتکل های امنیتی،می تواند بیش از ۳۰ درصد از چرخه های CPU سرور را مصرف کند، چرخه هایی که برای روند آموزش واقعی هوش مصنوعی بسیار مورد نیاز است.این ناکارآمدی به طور مستقیم زمان آموزش و کل هزینه مالکیت (TCO) را افزایش می دهد.

چالش: هزینه های بیش از حد CPU و انتقال داده های ناکارآمد

گلوخونه اصلی در مقیاس بزرگآموزش هوش مصنوعیدیگر فقط FLOPS خام نیست؛ این ناکارآمدی سیستماتیک در خط لوله داده ها است. چالش های اصلی شامل:

  • قحطي سي پي يو:پردازنده های میزبان با مدیریت استیک های شبکه (TCP / IP) ، درایورهای ذخیره سازی و مجازی سازی گرفتار شده اند و منابع کمتری را برای چارچوب هوش مصنوعی باقی می گذارند.
  • گلوخونه های I/O:انتقال مجموعه داده های گسترده از ذخیره سازی به حافظه GPU باعث ایجاد ازدحام در بس و شبکه PCIe می شود و منجر به زمان بیکار GPU می شود.
  • هزينه هاي عمومي امنيت:در محیط های چند مستاجر، استفاده از سیاست های رمزنگاری و امنیت بیشتر بر CPU میزبان تاثیر می گذارد.
  • ناکارآمدشبکه گرافیک:عملیات ارتباطات جمعی (مانند All-Reduce) در نرم افزار انجام می شود، ایجاد تأخیر و اضطراب که آموزش هماهنگ را کند می کند.

این چالش ها سناریویی را ایجاد می کنند که در آن GPU های گران قیمت در انتظار داده ها باقی می مانند و به طور چشمگیری استفاده کلی و ROI از زیرساخت های هوش مصنوعی را کاهش می دهند.

راه حل: تخلیه، سرعت بخشیدن و جداسازی با Mellanox DPU

درMellanox DPU(در حال حاضر بخشی از خط محصول BlueField NVIDIA) یک پردازنده انقلابی است که به طور خاص برای رفع این تنگنای زیرساخت ها طراحی شده است.این فقط یک کارت رابط شبکه (NIC) نیست بلکه یک سیستم کاملا قابل برنامه ریزی بر روی تراشه (SoC) است که شامل هسته های قدرتمند Arm و موتورهای شتاب دهنده تخصصی استبا استفاده از DPU در هر سرور، سازمان ها می توانند یک لایه زیرساخت تسریع شده سخت افزاری ایجاد کنند.

چگونه DPU Mellanox خوشه های هوش مصنوعی را تغییر می دهد:
  • بارگذاری زیرساخت ها:درMellanox DPUاین کار شامل TCP/IP، NVMe over Fabrics (NVMe-oF) ، رمزگذاری و عملکردهای فایروال می شود.این "آزاد کردن" هسته های CPU به طور انحصاری برای برنامه های کاربردی هوش مصنوعی.
  • ارتباطات تسریع شده:DPU دارای دسترسی مستقیم به حافظه از راه دور (RDMA) است که به GPU ها امکان دسترسی مستقیم به حافظه سایر GPU ها را در شبکه با تاخیر بسیار کم می دهد.سنگ بنای عملکرد بالاشبکه گرافیک.
  • مقیاس پذیری بهبود یافته:با CPU میزبان که از وظایف زیرساخت آزاد شده است، مقیاس بندی یک خوشه به افزایش خطی در هزینه های CPU منجر نمی شود.این اجازه می دهد تا برای مقیاس بندی کارآمدتر و قابل پیش بینی به تعداد گره های عظیم.
  • امنیت بدون اعتماد:DPU یک مدل امنیتی "صفر اعتماد" را با ارائه روت اعتماد جدا شده از سخت افزار، مدیریت کلید و توانایی اجرای برنامه های امنیتی در یک محیط جدا شده بر روی DPU فراهم می کند.جدا از میزبان.
نتایج قابل اندازه گیری: عملکرد، کارایی و افزایش TCO

ادغامMellanox DPUبهبود فوری و قابل اندازه گیری را در شاخص های کلیدی عملکرد به ارمغان می آورد. داده های زیر بر اساس معیارهای صنعت و پیاده سازی های واقعی است:

متریک سرور سنتی (محور پردازنده) سرور با Mellanox DPU بهبود
هسته های CPU در دسترس برای هوش مصنوعی 70 درصد >95% ~36٪ افزایش
تمام کم کردن تاخیر (256 GPU) ~500 μs ~180 μs 64 درصد کاهش
خروجی I/O ذخیره ~12 گیگابایت در ثانیه ~40 گیگابایت در ثانیه 233 درصد افزایش
کل زمان آموزش (BERT-Large) ~60 ساعت 42 ساعت 30% کاهش

این دستاوردهای عملکردی به طور مستقیم به ارزش کسب و کار تبدیل می شوند: زمان سریع تر مدل سازی، هزینه های پایین تر ابر / محاسبات،و توانایی مقابله با مشکلات پیچیده تر در یک زیرساخت.

نتیجه گیری: ساخت زیرساخت های آینده هوش مصنوعی

مسیر هوش مصنوعی روشن است: مدل ها همچنان رشد خواهند کرد و خوشه ها حتی بیشتر توزیع خواهند شد.روش سنتی از پرتاب CPU های بیشتر به مشکل زیرساخت ها پایدار نیست.Mellanox DPUنشان دهنده یک تغییر اساسی معماری است، ایجاد یک سطح زیرساخت اختصاصی و شتاب دهنده است که به خوشه های GPU اجازه می دهد تا به سطوح بی سابقه ای از عملکرد و کارایی برسند.این یک جزء حیاتی برای هر سازمانی است که به دنبال حفظ یک مزیت رقابتی در تحقیق و توسعه هوش مصنوعی است..