راه حل فنی NVIDIA Mellanox MCX556A-ECAT: RDMA/RoCE برای حمل و نقل با تاخیر کم و بهینه سازی سرعت سرور

April 23, 2026

راه حل فنی NVIDIA Mellanox MCX556A-ECAT: RDMA/RoCE برای حمل و نقل با تاخیر کم و بهینه سازی سرعت سرور

این مقاله فنی برای معماران شبکه، مهندسان پیش‌فروش و مدیران عملیات در نظر گرفته شده است. این مقاله بر آداپتور سرور NVIDIA Mellanox MCX556A-ECAT تمرکز دارد و یک چارچوب سیستماتیک برای ساخت شبکه‌های مراکز داده با کارایی بالا و تأخیر کم با استفاده از فناوری RDMA و RoCE ارائه می‌دهد.بارهای کاری مراکز داده مدرن - از جمله ذخیره‌سازی توزیع‌شده (Ceph، Lustre)، پایگاه‌های داده درون حافظه (Redis، Aerospike) و چارچوب‌های آموزش هوش مصنوعی - هم به توان عملیاتی بالا و هم به تأخیر زیر میلی‌ثانیه نیاز دارند. پشته‌های سنتی TCP/IP سربار قابل توجهی از CPU، تعویض زمینه و کپی داده‌ها را معرفی می‌کنند که با رسیدن سرعت شبکه به 100 گیگابیت بر ثانیه و بالاتر به گلوگاه تبدیل می‌شوند. الزامات کلیدی برای زیرساخت‌های نسل بعدی عبارتند از: تخلیه CPU (کاهش استفاده از پردازنده میزبان)، تأخیر فوق‌العاده کم و قابل پیش‌بینی (به ویژه برای تأخیر دم)، انتقال بدون اتلاف برای پروتکل‌های ذخیره‌سازی (NVMe-oF، iSER) و ادغام یکپارچه با زیرساخت اترنت موجود. MCX556A-ECAT مستقیماً به هر یک از این الزامات می‌پردازد.

2. طراحی کلی معماری شبکه و سیستم

معماری پیشنهادی یک توپولوژی دو لایه برگ-ستون را با اترنت بدون اتلاف که برای انتقال RoCE (RDMA over Converged Ethernet) پیکربندی شده است، اتخاذ می‌کند. تمام گره‌های محاسباتی و ذخیره‌سازی مجهز به کارت آداپتور اترنت MCX556A-ECAT هستند که از طریق لینک‌های 100GbE QSFP28 به سوئیچ‌های برگ متصل می‌شوند. سوئیچ‌های ستون ترافیک لایه برگ را تجمیع می‌کنند و پهنای باند هسته بدون مسدود شدن را فراهم می‌کنند. اصول معماری کلیدی عبارتند از: RoCEv2، RDMA را در UDP/IP کپسوله می‌کند و امکان مسیریابی در مرزهای لایه 3 را فراهم می‌کند.

کنترل جریان اولویت (PFC):

رفتار بدون اتلاف را برای کلاس‌های ترافیک RDMA فعال می‌کند.انتخاب انتقال پیشرفته (ETS): پهنای باند را برای جریان‌های حساس به تأخیر تضمین می‌کند.

  • اطلاع‌رسانی ازدحام: استفاده از DCQCN (Data Center Quantized Congestion Notification) برای کنترل جریان سرتاسر.
  • این معماری از محیط‌های bare-metal و مجازی‌شده پشتیبانی می‌کند و SR-IOV امکان عبور مستقیم توابع مجازی را به ماشین‌های مجازی فراهم می‌کند.3. نقش NVIDIA Mellanox MCX556A-ECAT و ویژگی‌های کلیدی
  • این آداپتور به عنوان یک کارت شبکه PCIe آداپتور MCX556A-ECAT ConnectX، سنگ بنای این راه‌حل است. موتور تخلیه مبتنی بر سخت‌افزار آن از هسته سیستم‌عامل عبور می‌کند و امکان انتقال داده مستقیم از حافظه به حافظه را فراهم می‌کند. ویژگی‌های حیاتی عبارتند از:ویژگی
  • مزیتدو پورت 100GbE (تا 200 گیگابیت بر ثانیه تجمیعی)

مقیاس‌پذیری توان عملیاتی خطی برای بارهای کاری نیازمند پهنای باند

پشتیبانی از RDMA با RoCEv2

تأخیر زیر میکروثانیه، کپی صفر CPUتخلیه NVMe-oF و GPUDirectتسریع خطوط لوله ذخیره‌سازی و آموزش هوش مصنوعی

سخت‌افزار T10-DIF، IPsec، TLS یکپارچگی و امنیت داده سرتاسر
شتاب‌دهنده SR-IOV، VirtIO عملکرد نزدیک به بومی در محیط‌های مجازی‌شده
برای تیم‌هایی که برگه داده MCX556A-ECAT و مشخصات MCX556A-ECAT را بررسی می‌کنند، توجه داشته باشید که این آداپتور از PCIe 3.0 و 4.0 (x16) پشتیبانی می‌کند و سازگاری با عقب‌مانده با سرورهای موجود را تضمین می‌کند و در عین حال مسیری برای مهاجرت به پلتفرم‌های نسل بعدی ارائه می‌دهد. 4. توصیه‌های استقرار و مقیاس‌پذیری (توپولوژی معمولی)
یک استقرار مرجع برای یک خوشه متوسط (تا 200 گره) در زیر شرح داده شده است. MCX556A-ECAT در اسلات PCIe هر سرور نصب می‌شود و اتصال دو پورت برای افزونگی و تجمیع پهنای باند. توپولوژی فیزیکی:
دو سوئیچ ستون، چهار سوئیچ برگ. هر برگ به همه ستون‌ها متصل است (شبکه کامل). هر سرور به دو برگ متصل است (اتصال فعال-فعال). پیکربندی RoCE:
VLAN اختصاصی برای ترافیک RoCE. علامت‌گذاری QoS مبتنی بر DSCP (به عنوان مثال، DSCP 46 برای RDMA). PFC فعال بر روی اولویت 3. مدیریت بافر:

بافرهای سرریز بدون اتلاف را در هر پورت بر اساس زمان رفت و برگشت و فاصله لینک پیکربندی کنید.مقیاس‌پذیری فراتر از 200 گره: یک لایه ستون فوقانی معرفی کنید و BGP-EVPN را برای گسترش لایه 2 در چندین پاد مستقر کنید. اپتیک‌ها و کابل‌های سازگار با MCX556A-ECAT را از فروشندگان واجد شرایط (مانند Mellanox، FS.com) تأیید کنید. هنگام ارزیابی قیمت MCX556A-ECAT برای خرید در مقیاس بزرگ، قیمت‌های بسته‌ای با سوئیچ‌ها و اپتیک‌ها را در نظر بگیرید.5. عملیات، نظارت، عیب‌یابی و بهینه‌سازی

عملیات مؤثر یک پارچه مبتنی بر RoCE نیازمند نظارت فعال و ابزارهای تخصصی است:

نظارت بر عملکرد:تشخیص ازدحام:

  • بسته‌های علامت‌گذاری شده ECN و فریم‌های مکث PFC را با استفاده از تلمتری سوئیچ (مانند MIBهای SNMP Mellanox) نظارت کنید. نرخ بالای فریم‌های مکث نشان‌دهنده فشار بافر است.مدیریت سفت‌افزار و درایور:
  • به طور منظم به آخرین نسخه‌ها از NVIDIA OFED به‌روزرسانی کنید. از mstflint برای اعتبارسنجی سفت‌افزار استفاده کنید.عیب‌یابی رایج:
  • برای خرابی‌های اتصال RDMA، سازگاری MTU، عضویت VLAN و نگاشت‌های DSCP به CoS را تأیید کنید. از ibdev2netdev و rdma link show برای بررسی وضعیت دستگاه استفاده کنید.نکات بهینه‌سازی:
  • پارامترهای DCQCN (آلفا، بتا، تایمر افزایش نرخ) را بر اساس بار کاری تنظیم کنید. برای بارهای کاری ذخیره‌سازی، عمق صف تکمیل را افزایش دهید. برای آموزش هوش مصنوعی، GPUDirect RDMA را فعال کرده و حافظه را پین کنید.برای برنامه‌ریزی ظرفیت، به برگه داده MCX556A-ECAT برای مشخصات حرارتی و توان (معمولاً 15 وات) مراجعه کنید. این آداپتور به طور گسترده MCX556A-ECAT برای فروش از طریق توزیع‌کنندگان مجاز، از جمله برنامه‌های نگهداری قطعات یدکی، موجود است.

6. خلاصه و ارزیابی ارزش