تمرینات کاربردی: NVIDIA Mellanox MCX631102AN-ADAT RDMA / RoCE انتقال کم تاخیر و افزایش خروجی سرور

April 27, 2026

آخرین اخبار شرکت تمرینات کاربردی: NVIDIA Mellanox MCX631102AN-ADAT RDMA / RoCE انتقال کم تاخیر و افزایش خروجی سرور

در ذخیره‌سازی توزیع‌شده، محاسبات با کارایی بالا و خوشه‌های آموزش هوش مصنوعی، تأخیر شبکه و سربار CPU به گلوگاه‌های اصلی تبدیل شده‌اند که عملکرد سرور را محدود می‌کنند. یک ارائه‌دهنده خدمات ابری اخیراً بک‌اند ذخیره‌سازی NVMe-oF خود را با انتخاب کارت شبکه سرور ارتقا داده است. با استقرار RDMA بر روی اترنت همگرا (RoCEv2)، آنها به انتقال با تأخیر کم سرتاسری و افزایش قابل توجه توان عملیاتی سرور دست یافتند. این مطالعه موردی نحوه عملکرد کارت شبکه را در یک محیط تولیدی بررسی می‌کند.

پیش‌زمینه و چالش: گلوگاه پشته پروتکل TCP/IP

زیرساخت 25GbE موجود ارائه‌دهنده، ترافیک ذخیره‌سازی را با استفاده از پشته نرم‌افزار سنتی TCP/IP مدیریت می‌کرد. در سناریوهای NVMe/TCP، استفاده از CPU برای کپسوله‌سازی و جداسازی بسته‌ها از 40 درصد فراتر رفت و منجر به تأخیر ذخیره‌سازی بیش از 200 میکروثانیه و کاهش شدید ظرفیت محاسباتی در سرورهای برنامه شد. معماران به شدت به راه‌حلی نیاز داشتند که بتواند از پشته شبکه هسته عبور کند، تداخل CPU را کاهش دهد و توان عملیاتی خطی را در لینک‌های دوگانه 25GbE حفظ کند. پس از ارزیابی گزینه‌های متعدد، آنها NVIDIA Mellanox MCX631102AN-ADAT را به عنوان سخت‌افزار اصلی برای نوسازی شبکه ذخیره‌سازی خود انتخاب کردند.

راه‌حل و استقرار: RDMA/RoCEv2 با تخلیه سخت‌افزاری

استقرار تمام سرورهای رو به ذخیره‌سازی را با کارت شبکه اترنت MCX631102AN-ADAT که در حالت بدون اتلاف RoCEv2 (با استفاده از ECN و PFC) اجرا می‌شد، جایگزین کرد. مراحل کلیدی استقرار شامل موارد زیر بود:

  • فعال‌سازی SR-IOV و اختصاص توابع مجازی (VFs) به ماشین‌های مجازی ذخیره‌سازی، عبور از پشته شبکه هایپروایزر
  • پیکربندی NVMe over Fabrics (NVMe-oF) با حمل و نقل RDMA، حذف کامل سربار TCP
  • تنظیم آستانه‌های بافر سوئیچ برای ترافیک RoCE 25GbE بدون اتلاف در سراسر توپولوژی برگ-ستون

مشخصات MCX631102AN-ADAT — از جمله مُهرهای زمانی سخت‌افزاری، حمل و نقل اتصال پویا (DCT) و موتور دریافت برداری — به طور کامل برای اطمینان از تأخیر قابل پیش‌بینی زیر میکروثانیه حتی تحت بار تجمعی 50 گیگابیت بر ثانیه مورد استفاده قرار گرفت.

افزایش عملکرد اندازه‌گیری شده و مزایای عملیاتی

پس از مهاجرت به شبکه مبتنی بر ، معیارهای زیر ثبت شد:

متریک قبل (TCP/IP 25GbE) بعد (RoCEv2 با MCX631102AN-ADAT)
تأخیر خواندن NVMe-oF (P99) 215 میکروثانیه 18 میکروثانیه
استفاده از CPU (مسیر I/O ذخیره‌سازی) 41% (یک هسته اشباع شده) 7% (توزیع شده در هسته‌ها)
توان عملیاتی سرور تجمعی (RX+TX) 42 گیگابیت بر ثانیه (محدود شده توسط نرم‌افزار) 49.8 گیگابیت بر ثانیه (نرخ خط)
توان عملیاتی بسته‌های کوچک (64 بایتی) 8.1 میلیون بسته در ثانیه 37.5 میلیون بسته در ثانیه (هدایت جریان سخت‌افزاری)

مهندسان خاطرنشان کردند که راه‌حل کارت شبکه اترنت MCX631102AN-ADAT تأخیر دم قابل پیش‌بینی مناسب برای پایگاه‌های داده تجزیه و تحلیل بلادرنگ را ارائه می‌دهد. علاوه بر این، هسته‌های CPU آزاد شده به بارهای کاری برنامه مجدداً اختصاص داده شدند و تراکم کلی مستأجر را تقریباً 24 درصد در همان سرورهای فیزیکی افزایش دادند.

سازگاری و ادغام اکوسیستم

هنگام گسترش استقرار، تیم عملیات تأیید کرد که کارت شبکه با سوئیچ‌های NVIDIA Spectrum موجود (پروفایل‌های RoCE بدون اتلاف) و همچنین سوئیچ‌های ToR شخص ثالث از Arista و Cisco با پیکربندی DCBX سازگار است. برای برنامه‌ریزی تدارکات، آنها به برگه داده MCX631102AN-ADAT مراجعه کردند تا پاکت‌های توان (حدود 12 وات معمولی) و الزامات حرارتی را تأیید کنند. استعلام‌های اولیه عمده تأیید کردند که قیمت MCX631102AN-ADAT در مقایسه با SmartNICهای مشابه در کلاس خود رقابتی باقی مانده است، و چندین توزیع کننده MCX631102AN-ADAT را برای فروش تحت توافق‌نامه‌های حجمی استاندارد فهرست کرده‌اند.خلاصه و چشم‌اندازمطالعه موردی تولید به وضوح نشان می‌دهد که

MCX631102AN-ADAT

امکان تغییر اساسی از شبکه‌های ذخیره‌سازی محدود شده با TCP به شبکه‌های شتاب‌دهنده RDMA را بدون نیاز به بازسازی کامل زیرساخت 100GbE فراهم می‌کند. با استفاده از طراحی MCX631102AN-ADAT ConnectX-6 Lx دو پورت 25GbE SFP28، سازمان‌ها می‌توانند توان عملیاتی مؤثر را برای بارهای کاری حساس به تأخیر دو برابر کنند و در عین حال منابع قابل توجه CPU را آزاد کنند. در آینده، همین الگوی استقرار به چارچوب‌های یادگیری ماشین توزیع‌شده (NCCL بر روی RoCE) و برنامه‌های کاربردی با حالت (stateful) مبتنی بر میکروسرویس گسترش خواهد یافت. برای معمارانی که ارتقاء 25GbE را ارزیابی می‌کنند، NVIDIA Mellanox MCX631102AN-ADAT به عنوان یک بلوک ساختمانی اثبات شده و مقاوم در برابر تولید برای شبکه‌های مرکز داده با کارایی بالا و تأخیر کم ایستاده است.