آداپتور سرور NVIDIA Mellanox MCX653106A-HDAT در عمل: انتقال و سرور با تأخیر کم RDMA/RoCE

April 30, 2026

آخرین اخبار شرکت آداپتور سرور NVIDIA Mellanox MCX653106A-HDAT در عمل: انتقال و سرور با تأخیر کم RDMA/RoCE

در محیط‌های مرکز داده مدرن - از فضای ذخیره‌سازی توزیع شده و تجارت با فرکانس بالا گرفته تا خوشه‌های آموزشی هوش مصنوعی در مقیاس بزرگ - پشته‌های پروتکل TCP/IP سنتی به یک گلوگاه بزرگ تبدیل شده‌اند. سربار شبکه هسته، کپی داده ها و سوئیچینگ زمینه منابع CPU قابل توجهی را مصرف می کند در حالی که تاخیر غیرقابل پیش بینی را معرفی می کند. این مطالعه موردی بررسی می‌کند که چگونه یک ارائه‌دهنده پیشرو زیرساخت ابری با استقرار این چالش‌ها غلبه کرده استNVIDIA Mellanox MCX653106A-HDATسرور NIC، دستیابی به بهبودهای چشمگیر در تاخیر و توان عملیاتی.

پیشینه و چالش ها: تنگنای TCP/IP

زیرساخت 25 گیگابایتی موجود ارائه‌دهنده، که TCP استاندارد را اجرا می‌کند، برای همگام شدن با ترافیک ذخیره‌سازی NVMe-oF و حجم‌های کاری تحلیلی بلادرنگ تلاش می‌کرد. استفاده از CPU در گره‌های ذخیره‌سازی اغلب فقط برای پردازش شبکه از 70 درصد فراتر می‌رفت و فضای کافی برای منطق برنامه باقی نمی‌ماند. تأخیر سرتاسری بین گره‌های محاسباتی و ذخیره‌سازی بین 50 تا 150 میکروثانیه در نوسان بود که باعث افزایش تأخیر دنباله‌ای شد که بر توافق‌نامه‌های سطح سرویس تأثیر گذاشت. تیم مهندسی تشخیص داد که یک تغییر اساسی در معماری شبکه مورد نیاز است - تغییری که هسته را دور می زند و دسترسی مستقیم به حافظه را بین نقاط پایانی امکان پذیر می کند.

راه حل: استقرار MCX653106A-HDAT با RoCE

پس از ارزیابی چندین گزینه، تیم انتخاب کردکارت آداپتور اترنت MCX653106A-HDATبه عنوان سنگ بنای تازه سازی شبکه آنها. این بر اساس معماری ConnectX-6 ساخته شده استآداپتور MCX653106A-HDAT ConnectX کارت شبکه PCIeاتصال دو پورت 100GbE با پشتیبانی سخت افزاری بومی برای RoCE (RDMA از طریق اترنت همگرا) ارائه می کند. استقرار یک رویکرد مرحله‌ای را دنبال کرد:

  • فاز 1:NIC های قدیمی را در گره های ذخیره سازی (10 گره در حال اجرا Ceph) با آداپتور جدید جایگزین کنید.
  • فاز 2:اترنت بدون اتلاف را با استفاده از DCB (کنترل جریان اولویتی و ETS) در هر دو کارت شبکه و سوئیچ های رک بالا پیکربندی کنید.
  • فاز 3:ترافیک برنامه را از سوکت های TCP به افعال مبتنی بر RDMA و NVMe-oF از طریق RoCE منتقل کنید.
  • فاز 4:گسترش استقرار برای محاسبه گره‌هایی که تجزیه و تحلیل بلادرنگ را مدیریت می‌کنند.

مهندسین مشاورهبرگه داده MCX653106A-HDATومشخصات MCX653106A-HDATسازگاری کامل با فابریک سوئیچ ملانوکس موجود و توزیع لینوکس مستقر شده (اوبونتو 22.04 با درایورهای MLNX_OFED) را تأیید کرد. راسازگار با MCX653106A-HDATاکوسیستم جامع ثابت شد و به هیچ تغییر سخت افزاری فراتر از جایگزینی NIC نیاز نداشت.

نتایج و مزایا: تحول قابل اندازه گیری

آزمایش پس از استقرار، بهبودهای قابل توجهی را در تمام معیارهای کلیدی نشان داد. جدول زیر مقایسه قبل و بعد را خلاصه می کند:

متریک قبل از (25GbE TCP) بعد از (MCX653106A-HDAT RoCE) بهبود
تأخیر متوسط ​​(P99) 120 میکروثانیه 8 میکروثانیه کاهش 93 درصدی
CPU Node Storage (مسیر شبکه) ~65٪ ~ 12٪ کاهش 5.4 برابری
سرعت خواندن NVMe-oF (در هر گره) 18 گیگابیت بر ثانیه 96 گیگابیت بر ثانیه افزایش 5.3 برابری
نرخ پیام (64 میلیارد بسته) 15 Mpps 215 Mpps افزایش 14.3 برابری

فراتر از این دستاوردهای کمی، تیم چندین مزیت کیفی را مشاهده کرد. راراه حل کارت آداپتور اترنت MCX653106A-HDATحرکت داده‌های بدون کپی واقعی را بین حافظه برنامه و ذخیره‌سازی راه دور فعال کرد و مشکلات تخلیه بافر را که قبلاً باعث خرابی‌های متناوب در هنگام انفجار ترافیک می‌شد، حذف کرد. برای حجم کاری تجزیه و تحلیل، مهاجرت به RDMA زمان تکمیل کار را تا 62 درصد کاهش داد و مستقیماً نتایج کسب و کار را بهبود بخشید. هنگام ارزیابیقیمت MCX653106A-HDATدر برابر کل هزینه مالکیت، کاهش 30 درصدی تعداد گره های ذخیره سازی (به دلیل کارایی بالاتر در هر گره) بازپرداخت را طی 9 ماه به ارمغان آورد. راMCX653106A-HDAT برای فروشاز طریق شرکای NVIDIA همچنین دسترسی به چارچوب DOCA را شامل می‌شود که قابلیت برنامه‌ریزی آینده را برای عملکردهای شبکه سفارشی باز می‌کند.

نتیجه گیری و چشم انداز: بنیادی برای زیرساخت های نسل بعدی

استقرارNVIDIA Mellanox MCX653106A-HDATزیرساخت ارائه‌دهنده را از یک محیط محدود با TCP به یک پارچه با کارایی بالا و با تأخیر پایین تبدیل کرد که قادر به پشتیبانی از بارهای کاری مدرن است. ترکیبی از RoCE بدون بارگذاری سخت افزاری، رابط PCIe 4.0 و اکوسیستم نرم افزاری جامع، سه خواسته حیاتی مراکز داده امروزی را برطرف می کند: کاهش تأخیر، افزایش توان عملیاتی و بهبود کارایی CPU.

برای معمارانی که به‌روزرسانی‌های مشابه را ارزیابی می‌کنند، سفر با تأیید آغاز می‌شودسازگار با MCX653106A-HDATقطعات - از جمله سوئیچ ها، کابل ها و سیستم عامل ها. مفصلبرگه داده MCX653106A-HDATمشخصات قدرت، حرارتی و مکانیکی را برای برنامه ریزی یکپارچه ارائه می دهد. از آنجایی که پارچه‌های 200 گیگابایتی استاندارد می‌شوند و کلاسترهای آموزشی هوش مصنوعی نیاز به تأخیر کمتری دارند،کارت آداپتور اترنت MCX653106A-HDATبه عنوان یک راه حل اثبات شده و سخت شده در تولید آماده است. ارائه‌دهنده اکنون در حال گسترش استقرار به منظور گنجاندن RDMA مستقیم GPU برای بارهای کاری استنتاج هوش مصنوعی است و این آداپتور را به عنوان سنگ بنای معماری مدرن مرکز داده اعتبار می‌بخشد.