راهنمای راه حل فنی: NVIDIA Mellanox MCX623106AN-CDAT برای بهینه سازی RDMA / RoCE کم تاخیر و خروجی

March 11, 2026

راهنمای راه حل فنی: NVIDIA Mellanox MCX623106AN-CDAT برای بهینه سازی RDMA / RoCE کم تاخیر و خروجی

معماری های مدرن مرکز داده تحت فشار مداوم برای ارائه تأخیر کمتر و خروجی بالاتر در حالی که حفظ بهره وری CPU برای بار کاری برنامه است. شبکه های سنتی TCP / IP،با هزینه پروتکل ذاتی اش، اغلب قادر به پاسخگویی به خواسته های محاسبات با عملکرد بالا (HPC) ، هوش مصنوعی (AI) و خدمات مالی نیست.این کتاب سفید فنی یک راه حل جامع را ارائه می دهدMCX623106AN-CDATآداپتور سرور، با تمرکز بر پیاده سازی RDMA بر روی اترنت همگرا (RoCE) برای کاهش چشمگیر تاخیر و افزایش سرعت سرور.و مدیران عملیات، این سند معماری، استراتژی های استقرار و بهترین شیوه های عملیاتی برای استفاده از این فناوری پیشرفته را مشخص می کند.

1. پیش زمینه پروژه و تجزیه و تحلیل نیازهای

چالش اصلی این راه حل " مالیات بر داده ها " است که توسط استیک های شبکه مبتنی بر هسته اعمال می شود. در سناریوهایی که نیاز به مبادله داده های فرکانس بالا دارند، مانند ذخیره سازی توزیع شده،آموزش یادگیری ماشین، یا تجزیه و تحلیل در زمان واقعی ٪ چرخه های پردازنده در پردازش بسته، محاسبات چک سوم و سوئیچ های زمینه ای هدر می روند. الزامات اصلی یک زیرساخت مدرن عبارتند از:

  • تاخير فوق العاده کم:تاخیر برنامه های کاربردی از انتهای تا انتهای باید به حداقل برسد، به طور ایده آل در محدوده زیر 10 میکرو ثانیه برای ارتباطات بین سرور.
  • بارگذاری CPU:بافت شبکه باید حرکت داده را مدیریت کند و هسته پردازنده را برای کارهای محاسباتی آزاد کند.
  • مقیاس پذیری:معماری باید از یک پارچه مسطح و پهنای باند بالا که می تواند از ده ها تا هزاران گره بدون کاهش عملکرد مقیاس پذیر باشد، پشتیبانی کند.
  • بر اساس استانداردها:این راه حل باید از زیرساخت های موجود اترنت برای محافظت از سرمایه گذاری در حالی که قابلیت های پیشرفته را معرفی می کند استفاده کند.

درNVIDIA Mellanox MCX623106AN-CDATبه عنوان یک محصول با عملکرد بالاکارت آداپتور اترنت MCX623106AN-CDAT، به طور خاص برای فعال کردن RDMA در شبکه های استاندارد اترنت طراحی شده است.

2طراحی معماری شبکه کلی

معماری پیشنهادی یک پارچه برگ ستون فقرات است که برای یک محیط RoCE بدون زیان طراحی شده است. The key principles include a non-blocking core with sufficient oversubscription ratios and the enablement of Priority Flow Control (PFC) and Explicit Congestion Notification (ECN) across all network devicesاین طراحی ترافيک محاسبات، ذخیره سازی و مدیریت را در یک پارچه ی واحد و پرسرعت اترنت ادغام می کند.

در قلب این طراحی گره های سرور هستند، هر کدام از آنها مجهز بهMCX623106AN-CDAT آداپتور ConnectX کارت شبکه PCIe. این آداپتور به سوئیچ های برگ از طریق لینک های 25GbE یا 100GbE بسته به چگالی بار کار متصل می شود. لایه ستون فقرات اتصال کامل بین برگ ها را فراهم می کند،تضمین مسیرهای کم تاخیراهداف ذخیره سازی، مانند آرایه های NVMe-oF، همچنین با استفاده از آداپتورهای سازگار به همان پارچه متصل می شوند و دسترسی مستقیم به حافظه را از گره های محاسباتی امکان پذیر می کنند.

3نقش NVIDIA Mellanox MCX623106AN-CDAT در راه حل

درMCX623106AN-CDATاین یک رابط شبکه نیست؛ این یک پیشگام واحد پردازش داده پیچیده (DPU) است که تمام جنبه های ارتباطات RDMA را اداره می کند. نقش آن چند وجهی است:

  • موتور RDMA/RoCE:سخت افزار آداپتور پروتکل RoCEv2 را پیاده سازی می کند و معاملات RDMA را از طریق UDP / IP گنجانده است. این امر امکان ارتباط مسیریابی و کم تاخیر را بدون درگیر کردن CPU میزبان فراهم می کند.
  • حمل و نقل:این سیستم ارتباط برقرار کردن، توالی بسته ها و حمل و نقل قابل اعتماد را مدیریت می کند و یک رابط حافظه به حافظه ساده را برای برنامه ها ارائه می دهد.
  • رابط PCIe Gen4:این آداپتور با استفاده از رابط میزبان PCIe 4.0 پهنای باند بالا، اطمینان حاصل می کند که داده های شبکه می توانند به سرعت به حافظه سیستم منتقل شوند و از آن خارج شوند و از این طریق از تنگنایی های داخلی جلوگیری می شود.مشخصات MCX623106AN-CDATتوانایی آن را برای اشباع کامل پیوندهای با سرعت بالا تأیید کنید.

4توصیه های تعبیه و مقیاس بندی

استفاده موفق نیاز به پیکربندی دقیق از هر دو بافت شبکه و میزبان های نهایی دارد. مراحل زیر برای پیاده سازی مرحله ای توصیه می شود:

  • آماده سازی پارچه:قبل از استقرار سرورها، تمام سوئیچ های مسیر را برای RoCE بدون ضرر پیکربندی کنید. این شامل تنظیم PFC (802.1Qbb) برای کلاس ترافیک RoCE و فعال کردن ECN (802.1Qau) برای مدیریت ازدحام.
  • نصب درایور و نرم افزار:نصب آخرین رانندگان NVIDIA WinOF-2 یا MLNX_OFED برای اطمینان از پشتیبانی کامل از ویژگی برایMCX623106AN-CDAT. بررسي firmware مطابقت با نسخه مشخص شده درصفحه اطلاعات MCX623106AN-CDAT.
  • تنظیمات کیفیت خدمات (QoS):اجرای سیاست های QoS برای اولویت بندی ترافیک RoCE (به عنوان مثال، مقادیر DSCP) و اطمینان از آن که با ترافیک معمولی TCP مقابله نمی کند.توپولوژی معمولی شامل گروه بندی گره های ذخیره سازی و محاسبات در یک دامنه RoCE برای عملکرد بهینه است.
  • ملاحظات مقیاس پذیری:همانطور که پارچه رشد می کند، از ویژگی های پیشرفته آداپتور مانند "RoCE Adaptive Routing" برای حفظ تاخیر کم در مسیرهای متعدد استفاده کنید. اطمینان حاصل کنید که تمام گره های جدیدMCX623106AN-CDAT سازگاربا زیرساخت های سوئیچ موجود.

5نظارت عملیاتی، رفع مشکل و بهینه سازی

حفظ یک پارچه RDMA نیازمند ابزارها و شیوه های خاص است. NVIDIA یک مجموعه جامع برای مدیریت و نظارت برMCX623106AN-CDAT.

  • ابزار نظارت:از Mellanox NEO NVIDIA یا ابزارهای استاندارد مانند'mlxlink' و'mlxconfig' برای بررسی یکپارچگی لینک، دمای و شمارنده های خطا استفاده کنید.نظرسنجی SNMP می تواند آمار رابط خاص را برای ترافیک RoCE ردیابی کند.
  • معیارهای کلیدی:نظارت بر فریم های توقف PFC، که فشار بافر را در پارچه نشان می دهد. شمارش توقف بالا می تواند منجر به تورم تاخیر شود و نیاز به تنظیم اندازه بافر یا آستانه ECN دارد.
  • آپدیت های نرم افزار و درایور:به طور منظم برای به روز رسانی به نرم افزار ثابت آداپتور بررسی کنید. بهینه سازی عملکرد و ویژگی های جدید اغلب اضافه می شود، افزایش قابلیت های این آداپتورMCX623106AN-CDAT راه حل کارت آداپتور اترنت.
  • تنظیم عملکرد:تنظیم پارامترها مانند تنظیمات اعتدال وقفه و همگرا برای تعادل تاخیر و استفاده از CPU بر اساس پروفایل برنامه های خاص.

6خلاصه و ارزیابی ارزش

راه حل فنی در اطرافNVIDIA Mellanox MCX623106AN-CDATیک مسیر روشن و عملی برای دستیابی به ارتباطات کم تاخیر مبتنی بر RDMA / RoCE و دستاوردهای قابل توجهی در جریان سرور فراهم می کند.با انتقال پردازش شبکه به سخت افزار اختصاصی و امکان دسترسی مستقیم به حافظه، سازمان ها می توانند پتانسیل کامل برنامه های کاربردی خود را باز کنند.قیمت MCX623106AN-CDATدر مقایسه با چرخه های ذخیره شده CPU و عملکرد به دست آمده، بازده سرمایه گذاری قانع کننده است.MCX623106AN-CDAT برای فروشاین آداپتور به عنوان یک بلوک ساختمانی حیاتی برای نسل بعدی، مراکز داده با کارایی بالا برجسته می شود.