RDMA/RoCE انتقال کم تاخیر و افزایش خروجی سرور

April 28, 2026

RDMA/RoCE انتقال کم تاخیر و افزایش خروجی سرور

این مقاله فنی سفید، مرجع جامعی را برای معماران، مهندسان پیش‌فروش و رهبران عملیات با تمرکز بر NVIDIA Mellanox MCX631432AN-ADAB ارائه می‌دهد. این راه حل چالش‌های مدرن مراکز داده را برطرف می‌کند - یعنی سربار CPU ناشی از پشته‌های شبکه قدیمی، تأخیر ذخیره‌سازی ناپایدار و پهنای باند 25 گیگابیت اترنت استفاده نشده - با استقرار کارت آداپتور اترنت MCX631432AN-ADAB به عنوان سنگ بنای یک شبکه RDMA/RoCE با کارایی بالا و همگرا.

1. پیش‌زمینه پروژه و تجزیه و تحلیل الزامات

شبکه‌های سنتی مراکز داده برای ترافیک محاسباتی و ذخیره‌سازی به TCP/IP متکی هستند و CPU را مجبور می‌کنند هر بسته را پردازش کند. در محیط‌هایی که پایگاه‌های داده توزیع شده، NVMe-over-Fabrics (NVMe-oF) یا بارهای کاری آموزش هوش مصنوعی را اجرا می‌کنند، این رویکرد مبتنی بر نرم‌افزار سه مشکل اساسی ایجاد می‌کند: تأخیر بالا و متغیر (اغلب بیش از 50 میکروثانیه برای عملیات ذخیره‌سازی)، مالیات قابل توجه CPU (30-60٪ برای پردازش شبکه) و استفاده ناکارآمد از پهنای باند فیزیکی به دلیل سربار پروتکل. با تبدیل شدن 25 گیگابیت اترنت به سرعت استاندارد لایه دسترسی، این ناکارآمدی‌ها دیگر قابل قبول نیستند. الزامات هدف برای این راه حل عبارتند از: تأخیر ذخیره‌سازی سرتاسری کمتر از 5 میکروثانیه، استفاده کمتر از 10٪ CPU برای I/O شبکه و استفاده کامل از نرخ خط پورت‌های دوگانه 25 گیگابیت اترنت در هر سرور.

2. طراحی معماری کلی شبکه/سیستم

معماری پیشنهادی از توپولوژی ستون فقرات-برگ دو لایه با اترنت بدون اتلاف در لایه 2 استفاده می‌کند. گره‌های محاسباتی و ذخیره‌سازی به طور مساوی در سوئیچ‌های برگ توزیع شده‌اند، که هر کدام با PFC (کنترل جریان اولویت) و ECN (اعلان ازدحام صریح) پیکربندی شده‌اند تا RoCEv2 را فعال کنند. تصمیم معماری کلیدی استقرار آداپتور دو پورتی 25 گیگابیت اترنت SFP28 MCX631432AN-ADAB ConnectX-6 Lx دو پورتی 25 گیگابیت اترنت SFP28 بر روی هر سرور است که هم اتصال شبکه و هم تخلیه سخت‌افزاری برای RDMA را فراهم می‌کند. یک صف اولویت اختصاصی مبتنی بر DSCP برای ترافیک RoCE، جدا از ترافیک IP بهترین تلاش، اختصاص داده شده است. مدیریت متمرکز از Cumulus Linux یا SONiC انویدیا برای پیکربندی سوئیچ استفاده می‌کند، در حالی که ارکستراسیون سمت میزبان از پشته NVIDIA OFED بهره می‌برد.

3. نقش و ویژگی‌های کلیدی NVIDIA Mellanox MCX631432AN-ADAB

در این راه حل، MCX631432AN-ADAB به عنوان فعال‌کننده حیاتی عمل می‌کند و سرورهای کالایی را به گره‌های با تأخیر کم و توان عملیاتی بالا تبدیل می‌کند. بر اساس برگه داده MCX631432AN-ADAB، این آداپتور دارای چندین قابلیت پیشرفته است:

  • تخلیه RDMA سخت‌افزاری: ماشین حالت کامل RoCEv2 در سیلیکون، حذف پردازش حمل و نقل مبتنی بر نرم‌افزار.
  • دو پورت 25 گیگابیت اترنت SFP28: پشتیبانی از کابل‌های نوری فعال و DAC، با پردازش مستقل PPS در هر پورت.
  • رابط میزبان PCIe 4.0 x16: ارائه پهنای باند دو طرفه تا 200 گیگابیت بر ثانیه، بدون ایجاد گلوگاه بین آداپتور و حافظه میزبان.
  • تخلیه رمزگذاری درون خطی: پردازش IPsec و TLS با نرخ خط، حیاتی برای شبکه‌های ذخیره‌سازی صفر اعتماد.
  • شتاب‌دهنده NVMe-oF: صف فرمان مبتنی بر سخت‌افزار و قرار دادن داده‌ها که به طور خاص برای NVMe/TCP و NVMe/RoCE بهینه شده‌اند.

طبق مشخصات رسمی MCX631432AN-ADAB، این آداپتور تأخیر سخت‌افزاری کمتر از 800 نانوثانیه را ارائه می‌دهد و تا 200 میلیون پیام در ثانیه را پشتیبانی می‌کند. هنگامی که با کتابخانه منبع باز RDMACM ترکیب می‌شود، برنامه‌ها می‌توانند با حداقل تغییرات کد از سوکت‌های TCP به افعال RDMA منتقل شوند. برای سازمان‌هایی که این راه حل را ارزیابی می‌کنند، مهم است که توجه داشته باشید که لیست سرورهای سازگار با MCX631432AN-ADAB شامل تمام پلتفرم‌های اصلی OEM (Dell PowerEdge، HPE ProLiant، Lenovo ThinkSystem و Supermicro) با درایورهای تأیید شده برای RHEL، Ubuntu، Rocky Linux و Windows Server است.

4. توصیه‌های استقرار و مقیاس‌پذیری

یک استقرار معمولی در سطح رک از این الگو پیروی می‌کند: هر گره محاسباتی یا ذخیره‌سازی یک راه حل کارت آداپتور اترنت MCX631432AN-ADAB دریافت می‌کند، با پورت‌های دوگانه آن که در پیوند LACP فعال-فعال برای افزونگی پیکربندی شده‌اند یا به عنوان مسیرهای جداگانه شبکه (یکی به برگ-A، یکی به برگ-B). توپولوژی فیزیکی ساده است:

  • هر سرور → دو لینک 25 گیگابیت اترنت → دو سوئیچ برگ جداگانه (پشتیبانی از خرابی بدون وقفه).
  • سوئیچ‌های برگ → لینک‌های بالادست 100 گیگابیت اترنت → دو سوئیچ ستون فقرات برای عدم انسداد کامل مش.
  • علامت‌گذاری DSCP اختصاصی (به عنوان مثال، 46) برای ترافیک RoCE در تمام سوئیچ‌ها با فعال بودن PFC در آن کلاس.

برای مقیاس‌بندی فراتر از 200 سرور، توصیه می‌کنیم یک خوشه RoCE جداگانه برای ذخیره‌سازی و محاسبات به ترتیب مستقر کنید، یا از سیاست QoS برای اطمینان از اولویت‌بندی ترافیک RoCE ذخیره‌سازی استفاده کنید. تنظیم بافر در سوئیچ‌های برگ نیز حیاتی است: اندازه‌های بافر مشترک در هر پورت باید برای پورت‌های 25 گیگابیت اترنت به 12 مگابایت افزایش یابد تا ریز انفجارها را بدون از دست دادن بسته جذب کند. سازمان‌ها می‌توانند به کاتالوگ‌های فروشنده MCX631432AN-ADAB برای فروش برای قیمت‌گذاری حجمی مراجعه کنند، و قیمت MCX631432AN-ADAB در هر گره معمولاً در عرض شش ماه به دلیل صرفه‌جویی در CPU و افزایش بهره‌وری ذخیره‌سازی مستهلک می‌شود.

5. عملیات، نظارت و تنظیم عملکرد

پس از استقرار، ابزارها و شیوه‌های زیر از تأخیر کم پایدار اطمینان حاصل می‌کنند:

  • نظارت سمت میزبان: از mlx_perf و ethtool -S برای ردیابی شمارنده‌های RDMA در هر صف، ارسال مجدد PCIe و نشانه‌های ازدحام RoCE استفاده کنید.
  • تله‌متری سوئیچ: watchdog PFC و هیستوگرام‌های علامت‌گذاری ECN را برای تشخیص مسدود شدن سر خط قبل از تأثیرگذاری بر تولید فعال کنید.
  • توصیه‌های تنظیم: irqbalance را برای جداسازی هسته‌های CPU برای صف‌های تکمیل RDMA تنظیم کنید؛ اندازه درخواست خواندن حداکثر PCIe را به 4096 بایت افزایش دهید؛ ECN را در صف بهترین تلاش غیرفعال کنید تا از سیگنال‌های ازدحام نادرست جلوگیری شود.
  • چرخه عمر سفت‌افزار و درایور: در یادداشت‌های انتشار NVIDIA OFED مشترک شوید؛ کارت آداپتور اترنت MCX631432AN-ADAB از ارتقاء سفت‌افزار درجا بدون راه‌اندازی مجدد میزبان به دلیل بانک‌های تصویر دوگانه پشتیبانی می‌کند.

برای عیب‌یابی، شمارنده‌های خطای داخلی آداپتور (مانند خطاهای نماد، خرابی‌های یکپارچگی لینک محلی) تشخیص سریع را فراهم می‌کنند. هنگام ادغام با مدل‌های جدید سوئیچ، ماتریس قابلیت همکاری سازگار با MCX631432AN-ADAB را که توسط انویدیا نگهداری می‌شود، بررسی کنید.

6. خلاصه و ارزیابی ارزش

راه حل مبتنی بر NVIDIA Mellanox MCX631432AN-ADAB ارزش قابل اندازه‌گیری را در سه بعد ارائه می‌دهد: عملکرد، TCO و سادگی عملیاتی. با انتقال پردازش حمل و نقل، رمزگذاری و پروتکل ذخیره‌سازی از CPU به آداپتور، سازمان‌ها به تأخیر NVMe-oF کمتر از 5 میکروثانیه دست می‌یابند و در عین حال بیش از 40٪ از چرخه‌های CPU را برای منطق برنامه آزاد می‌کنند. طراحی دو پورتی 25 گیگابیت اترنت اتصال سرور را در برابر آینده مقاوم می‌کند و پشته نرم‌افزار بالغ NVIDIA OFED خطر ادغام را کاهش می‌دهد. برای معمارانی که قصد استقرار 25 گیگابیت اترنت سبز یا مدرن‌سازی زیرساخت‌های موجود محدود به TCP را دارند، این راه حل فنی - با محوریت MCX631432AN-ADAB ConnectX-6 Lx دو پورتی 25 گیگابیت اترنت SFP28- مسیری اثبات شده، مقیاس‌پذیر و محافظت شده از سرمایه‌گذاری برای موفقیت RDMA/RoCE را نشان می‌دهد.