راه حل فنی: دستیابی به RDMA/RoCE با تأخیر کم و بهینه سازی توان عملیاتی با ملانوکس

March 13, 2026

راه حل فنی: دستیابی به RDMA/RoCE با تأخیر کم و بهینه سازی توان عملیاتی با ملانوکس
1. پیشینه پروژه و تحلیل نیازها

مراکز داده مدرن تحت فشار مداوم برای ارائه عملکرد بالاتر برای برنامه های کاربردی حساس به تاخیر مانند پایگاه های داده توزیع شده، محاسبات با عملکرد بالا (HPC) ،و خوشه های آموزشی هوش مصنوعیشبکه های سنتی TCP/IP هزینه های قابل توجهی را برای پردازنده ایجاد می کنند که محدودیت های مقیاس پذیری برنامه را محدود می کنند و زمان پاسخ را افزایش می دهند.برای سازمان هایی که می خواهند زیرساخت های خود را مدرن کنند، نیاز اصلی روشن است: کاهش تاخیر و افزایش سرعت سرور بدون تعمیرات معماری گران قیمت.

راه حل در پذیرش RDMA (Remote Direct Memory Access) از طریق Ethernet Converged (RoCE) است. این فناوری انتقال مستقیم داده از حافظه به حافظه را امکان پذیر می کند.دور زدن هسته سیستم عامل برای آزاد کردن منابع CPU و به حداقل رساندن تاخیردر قلب این تحول، کارت رابط شبکه (NIC) است.MCX631432AN-ADABاز Mellanox (NVIDIA) به طور خاص برای پاسخگویی به این خواسته ها طراحی شده است و یک پایه قوی برای پارچه های فعال RoCE فراهم می کند.

2. طراحی کلی معماری شبکه و سیستم

معماری پیشنهادی یک بافت برگ ستون فقرات طراحی شده برای یک محیط اترنت بدون ضرر است که یک شرط اولیه برای عملکرد بهینه RoCEv2 است.این طراحی ترافيک محاسبات و ذخیره سازی را در یک سیستم واحد ادغام می کند.، پارچه با سرعت بالا برای کاهش پیچیدگی و هزینه.

  • لایه ستون فقرات:سوئیچ های 100GbE با ظرفیت بالا اتصال غیر مسدود کننده بین تمام سوئیچ های برگ را فراهم می کنند و مسیرهای کم تاخیر را تضمین می کنند.
  • لایه برگ:سوئیچ های بالای قفسه (ToR) با لینک های پایین 25GbE به سرورها و گره های ذخیره متصل می شوند.این سوئیچ ها با کنترل جریان اولویت (PFC) و اطلاع رسانی ازدحام صریح (ECN) برای حفظ یک پارچه بدون ضرر تنظیم شده اند.
  • لایه سرور:هر سرور مجهز بهNVIDIA Mellanox MCX631432AN-ADAB، یک آداپتور SFP28 دو پورت 25GbE. این اجازه می دهد تا اتصال شبکه یا مسیرهای جداگانه برای ترافیک ذخیره سازی و محاسبات.

این طراحی تضمین می کند کهکارت آداپتور اترنت MCX631432AN-ADABدر محیطی کار می کند که ترافیک RoCE بدون از دست دادن بسته می تواند جریان داشته باشد، که برای حفظ سرعت بالا و تاخیر کم بسیار مهم است.

3نقش MCX631432AN-ADAB در راه حل

درMCX631432AN-ADABاین سیستم عامل، به عنوان یکی از اعضای خانواده ConnectX-6 Lx، ویژگی های سطح سازمانی را به فرم فاکتور 25GbE می آورد. نقش اصلی آن این است که به عنوان یک سیستم عامل برای شبکه های اجتماعی و شبکه های اجتماعی به کار گرفته شود.MCX631432AN-ADAB راه حل کارت آداپتور اترنتبرای هر دو ترافیک محاسباتی و ذخیره سازی، بارگذاری وظایف شبکه از CPU سرور.

مشارکت های کلیدی فنی آداپتور عبارتند از:

  • تخلیه سخت افزار:این کارت تمام جنبه های پروتکل RoCE را در سخت افزار، از جمله حمل و نقل، کپسول سازی و کنترل ازدحام، مدیریت می کند. این امر تضمین می کند که عملیات RDMA چرخه های CPU نزدیک به صفر را مصرف می کند.
  • انعطاف پذیری دو پورت:پورت های دوگانه 25GbE را می توان برای شکست فعال / حالت آماده تنظیم کرد یا برای انواع ترافیک جداگانه استفاده کرد. به عنوان مثال،یک پورت می تواند ترافیک Ethernet فرونت اند را مدیریت کند در حالی که دیگری برای ترافیک ذخیره سازی پس زمینه با استفاده از RoCE اختصاص داده شده است، به حداکثر رساندن خروجی و امنیت
  • رابط PCIe 3.0 x16 میزبان:با پهنای باند کافی برای کار با هر دو پورت 25GbE به طور همزمان،MCX631432AN-ADAB ConnectX-6 Lx دو پورت 25GbE SFP28تضمین می کند که هیچ تنگه داخلی عملکرد برنامه را محدود نمی کند.
4توصیه های تعبیه و مقیاس بندی

استفاده ازMCX631432AN-ADABنیاز به برنامه ریزی دقیق ساختار شبکه و پیکربندی سرور دارد. مراحل زیر یک پیاده سازی معمول برای یک خوشه با عملکرد بالا را نشان می دهد:

  • آماده سازی پارچه:قبل از استقرار، سوئیچ های شبکه را برای پشتیبانی از RoCE پیکربندی کنید. این شامل فعال کردن PFC برای کلاس ترافیک RoCE و اجرای مدیریت ازدحام مبتنی بر ECN است.این محیط بدون از دست دادن مورد نیاز برای آداپتور را برای عملکرد بهینه ایجاد می کند.
  • نصب درایور و نرم افزار:نصب آخرین رانندگان NVIDIA WinOF-2 (برای ویندوز) یا MLNX_OFED (برای لینوکس) برای اطمینان از پشتیبانی کامل از ویژگی ها.MCX631432AN-ADABبرای عملکرد و سازگاری بهینه RoCE به روز است.
  • مقیاس بندی خوشه:این معماری با اضافه کردن گره های سرور بیشتر، هرکدام با MCX631432AN-ADAB خود، به صورت افقی مقیاس بندی می شود.پارچه غیر مسدود کننده برگ های ستون فقرات تضمین می کند که گره های اضافه شده عملکرد موجود را کاهش نمی دهندبرای استقرار های بزرگتر، گروه های جمع آوری لینک (LAG) می توانند بین سوئیچ های برگ و ستون فقرات استفاده شوند.

توپولوژی معمولی برای یک خوشه پایگاه داده شامل اتصال سرورهای اصلی و نسخه به یک سوئیچ برگ است تا تاخیر بین ریک را به حداقل برساند.هر سرور از آداپتور دو پورت خود برای اتصال به دو سوئیچ برگ جداگانه برای افزوده استفاده می کند.

5نظارت عملیاتی، رفع مشکل و بهینه سازی

پس از راه اندازی، حفظ عملکرد نیاز به نظارت و تنظیم فعال دارد.MCX631432AN-ADABبرای این منظور، تله متری جامع ارائه می دهد.

  • معیارهای کلیدی نظارت:استفاده از ابزارهایی مانند `mlxstat` و `ethtool` برای نظارت بر شمارنده های پورت، خطاهای پیوند و آمار ترافیک RDMA. ردیابی فریم های توقف PFC ضروری است.تعداد بالا نشان دهنده یک پارچه با ضرر است که عملکرد RoCE را کاهش می دهد..
  • آپدیت های نرم افزار و درایور:به طور منظم برای به روز رسانی ها بررسی کنید. نرم افزار جدید اغلب شامل بهینه سازی عملکرد و اصلاحات اشکال است که می تواند تاخیر را کاهش دهد و سازگاری را با سوئیچ های بالا بهبود بخشد.
  • تنظیم عملکرد:برای محیط هایی که دارای سخت ترین الزامات تاخیر هستند، تنظیم دقیق اعتدال وقفه و اندازه ی بافر می تواند به دستاوردهای افزایشی منجر شود.انعطاف پذیری آداپتور به معماران اجازه می دهد تنظیمات را بر اساس بار کاری خاص خود انتخاب کنند (به عنوان مثال:به عنوان مثال، HPC در مقابل مجازی سازی).

برای رفع مشکلات اتصال، بررسی اینکه ماژول های SFP28با MCX631432AN-ADAB سازگار استاستفاده از نوری های واجد شرایط NVIDIA ایجاد و عملکرد قابل اعتماد پیوند را تضمین می کند.

6خلاصه و ارزیابی ارزش

درMCX631432AN-ADABاز Mellanox (NVIDIA) یک مسیر روشن و موثر برای پیاده سازی یک ساختار شبکه با عملکرد بالا و تاخیر کم ارائه می دهد. با استفاده از قابلیت های پیشرفته RoCE،سازمان ها می توانند از مزایای دوگانه کاهش شدید هزینه های CPU و افزایش قابل توجهی سرعت سرور بهره مند شوند.. جزئیاتمشخصات MCX631432AN-ADABوصفحه اطلاعات MCX631432AN-ADABتوانایی آن را برای رسیدگی به سخت ترین حجم کار تأیید کنید.

برای مدیران فناوری اطلاعات و معماران شبکه که در حال ارزیابی بروزرسانی سخت افزار هستند، مزایای عملکردی که توسط این راه حل ارائه می شود مستقیماً به ارزش کسب و کار تبدیل می شود: پردازش معاملات سریعتر،دسترسی به ذخیره سازی کارآمدتر، و بهبود کل هزینه مالکیت.MCX631432AN-ADABبرای اطلاعات دقیق قیمت گذاری یا برای بررسیقیمت MCX631432AN-ADABو در دسترس بودن، لطفا با نماینده NVIDIA خود مشورت کنید.