تحلیل معماری شبکه Mellanox برای پشتیبانی از آموزش مدل‌های بزرگ هوش مصنوعی

October 5, 2025

آخرین اخبار شرکت تحلیل معماری شبکه Mellanox برای پشتیبانی از آموزش مدل‌های بزرگ هوش مصنوعی
معماری آینده: چگونه Mellanox InfiniBand آموزش مدل هوش مصنوعی را در مقیاس تسریع می بخشد

تاریخ:18 نوامبر 2023

از آنجایی که مدل‌های هوش مصنوعی از نظر اندازه و پیچیدگی به طور تصاعدی در حال رشد هستند، ساختار شبکه ای که هزاران GPU را به هم متصل می کند به عامل تعیین کننده حیاتی در راندمان آموزش تبدیل شده است. فناوری NVIDIA به عنوان ستون فقرات اساسی برای خوشه های ابررایانه ای هوش مصنوعی مدرن ظاهر شده است که به طور خاص برای غلبه بر گلوگاه های ارتباطی که آموزش مدل هوش مصنوعی در مقیاس بزرگ را آزار می دهد، طراحی شده است. این مقاله نوآوری های معماری را که InfiniBand را به استاندارد بالفعل برای تسریع در خواسته‌ترین بارهای کاری هوش مصنوعی در جهان تبدیل می‌کند، تجزیه و تحلیل می‌کند. مطابقت داشته باشد. با به حداقل رساندن سربار ارتباطی و به حداکثر رساندن استفاده از GPU، معماری InfiniBand کلید باز کردن نوآوری های سریعتر، کاهش هزینه های آموزش و دستیابی به مقیاس های هوش مصنوعی که قبلاً غیرممکن بود، است. این پایه و اساس ضروری برای نسل بعدی پیشرفت های هوش مصنوعی است.آموزش مدل هوش مصنوعی

مدرن، مانند مدل‌های زبانی بزرگ (LLM)، به استراتژی‌های موازی داده متکی است که در آن پارامترهای مدل پس از پردازش هر مینی‌بچ داده در هزاران GPU همگام‌سازی می‌شوند. زمان صرف شده در این فاز همگام‌سازی، که به عنوان همه-کاهش شناخته می‌شود، سربار خالص است. با

شبکه GPU مطابقت داشته باشد. با به حداقل رساندن سربار ارتباطی و به حداکثر رساندن استفاده از GPU، معماری InfiniBand کلید باز کردن نوآوری های سریعتر، کاهش هزینه های آموزش و دستیابی به مقیاس های هوش مصنوعی که قبلاً غیرممکن بود، است. این پایه و اساس ضروری برای نسل بعدی پیشرفت های هوش مصنوعی است.Mellanox InfiniBand: محاسبات درون شبکه برای هوش مصنوعیعصر طراحی مرکز داده با هدف عمومی برای تحقیقات هوش مصنوعی در حال پایان است. ماهیت خواستار این گلوگاه را مستقیماً با مجموعه‌ای از موتورهای شتاب‌دهنده مبتنی بر سخت‌افزار که شبکه را از یک شرکت‌کننده منفعل به یک دارایی محاسباتی فعال تبدیل می‌کنند، برطرف می‌کند.

SHARP (پروتکل تجمیع و کاهش سلسله مراتبی مقیاس پذیر):

مسیر یابی تطبیقی و کنترل ازدحام:

  • قابلیت‌های مسیریابی پویا InfiniBand به طور خودکار ترافیک را در اطراف نقاط داغ شلوغ هدایت می‌کند، و از استفاده یکنواخت از ساختار شبکه اطمینان حاصل می‌کند و از تبدیل شدن هیچ پیوندی به گلوگاه در طول فازهای ارتباطی شدید همه به همه جلوگیری می‌کند.تاخیر فوق العاده کم و پهنای باند بالا:
  • با تاخیر سرتاسری کمتر از 600 نانوثانیه و پشتیبانی از 400 گیگابیت بر ثانیه و فراتر از آن، Mellanox InfiniBand
  • سرعت خام لازم را برای تبادل پارامتر تقریباً در زمان واقعی بین GPU ها فراهم می کند.تأثیر قابل اندازه‌گیری بر راندمان آموزش و کل هزینه مالکیت (TCO)متریک
ساختار اترنت استاندارد

ساختار Mellanox InfiniBand

بهبود استفاده از GPU (در آموزش در مقیاس بزرگ) 40-60٪ 90-95٪
افزایش >50٪ زمان آموزش یک مدل (به عنوان مثال، LLM با 1 میلیارد پارامتر) 30 روز 18 روز
40٪ کاهش پهنای باند موثر برای همه-کاهش ~120 گیگابیت بر ثانیه ~380 گیگابیت بر ثانیه
3 برابر استفاده بیشتر مصرف انرژی در هر کار آموزشی 1.0x (خط پایه) ~0.7x
30٪ کاهش این معیارها نشان می دهد که یک استراتژی شبکه GPU بهینه شده یک تجمل نیست، بلکه برای دستیابی به بازگشت سرمایه (ROI) قابل دوام در سرمایه گذاری های خوشه ای هوش مصنوعی چند میلیون دلاری ضروری است.

نتیجه گیری: ساخت مرکز داده مخصوص هوش مصنوعیعصر طراحی مرکز داده با هدف عمومی برای تحقیقات هوش مصنوعی در حال پایان است. ماهیت خواستار آموزش مدل هوش مصنوعی

یک رویکرد طراحی مشترک را می طلبد که در آن قدرت محاسباتی GPU با شبکه هوشمند و شتاب‌یافته

Mellanox InfiniBand مطابقت داشته باشد. با به حداقل رساندن سربار ارتباطی و به حداکثر رساندن استفاده از GPU، معماری InfiniBand کلید باز کردن نوآوری های سریعتر، کاهش هزینه های آموزش و دستیابی به مقیاس های هوش مصنوعی که قبلاً غیرممکن بود، است. این پایه و اساس ضروری برای نسل بعدی پیشرفت های هوش مصنوعی است.