راه حل فنی NVIDIA Mellanox MCX653106A-HDAT: امکان انتقال کم تاخیر RDMA / RoCE و به حداکثر رساندن سرور
March 17, 2026
معماری های مدرن مراکز داده به طور فزاینده ای توسط نیاز به پردازش داده در زمان واقعی، بار کاری هوش مصنوعی (AI) و محاسبات با عملکرد بالا (HPC) تعریف می شوند.پشتهای شبکه سنتی، به ویژه TCP / IP، هزینه های CPU و تاخیر قابل توجهی را معرفی می کند که می تواند این برنامه های حساس عملکرد را فلج کند.معماران شبکه و مهندسان حمل و نقل وظیفه ساخت زیرساخت هایی را دارند که می توانند به طور کارآمد مقیاس پذیر شوند در حالی که توافقات سختگیرانه سطح خدمات (SLA) برای تاخیر و خروجی را برآورده می کنند.
الزامات اصلی مشخص شده در این طرح فنی ایجاد یک سیستم بدون ضرر است.پارچه با پهنای باند بالا که قادر به پشتیبانی از دسترسی مستقیم به حافظه از راه دور (RDMA) از طریق اترنت همگرا (RoCE) استبرای دستیابی به این هدف، کارت رابط شبکه (NIC) نه تنها باید از سرعت خط 100/200GbE پشتیبانی کند بلکه همچنین از تخلیه سخت افزاری پیچیده برای آزاد کردن منابع CPU میزبان نیز استفاده کند.اینجا جاییه کهMCX653106A-HDATعنصر اساسی راه حل می شود.
معماری پیشنهادی یک توپولوژی ستون فقرات طراحی شده برای یک محیط ابری خصوصی است که میزبان هر دو بار کاری مجازی و خوشه های HPC فلزی است.شبکه برای پشتیبانی از ترافیک RoCE تقسیم شده است، که نیاز به یک پارچه ایثرنت بدون ضرر دارد. اجزای کلیدی طراحی عبارتند از:
- سوئیچ های برگ:سوئیچ های سری NVIDIA Spectrum SN3000 با PFC (کنترل جریان اولویت) و ETS (انتخاب انتقال پیشرفته) برای ایجاد یک پارچه RoCE بدون ضرر پیکربندی شده اند.
- بازتاب دهنده های ستون فقرات:سوئیچ های با ظرفیت بالا که اتصال غیر مسدود کننده بین تمام سوئیچ های برگ را فراهم می کنند.
- گره های محاسبات و ذخیره سازی:هر سرور مجهز بهNVIDIA Mellanox MCX653106A-HDATبرای اتصال به سوئیچ های برگ با سرعت 100 گیگابایت در ثانیه
این طراحی تضمین می کند که هر ارتباطی که در مرکز داده انجام می شود، کمترین تاخیر را تجربه می کند و از دست دادن بسته صفر به دلیل ازدحام، که برای ثبات ترافیک RDMA حیاتی است.
به عنوانکارت شبکه PCIe MCX653106A-HDAT ConnectX، این دستگاه به عنوان رابط حیاتی بین بس حافظه سرور و بافت شبکه عمل می کند. نقش آن فراتر از انتقال ساده بسته است.کارت قابلیت های پیشرفته کنترل کننده ConnectX-6 را ادغام می کند، که به طور خاص برای این محیط های سخت ساخته شده است.کارت آداپتور اترنت MCX653106A-HDATاین امکان را می دهد:
- بيباس هسته و RDMA:برنامه ها می توانند به طور مستقیم با NIC ارتباط برقرار کنند و از هسته سیستم عامل عبور کنند. این امر به طور چشمگیری تاخیر و دخالت CPU را کاهش می دهد و امکان ایجاد یک سیستم عامل واقعی را فراهم می کند.انتقال RDMA/RoCE با تاخیر کم.
- تخلیه سخت افزار:این کارت پروتکل های ذخیره سازی و شبکه مانند NVMe-oF و VXLAN را تخلیه می کند، هزینه های اضافی CPU را کاهش می دهد و سرعت را افزایش می دهد.سرعت سرور.
- پشتیبانی از PCIe Gen3/Gen4:با یک رابط میزبان PCIe 3.0/4.0 x16،MCX653106A-HDATتضمین می کند که پهنای باند شبکه 100/200Gb/s توسط اتوبوس داخلی سرور محدود نشود.
برای معمارانی که جزئیات فنی را بررسی می کنند،مشخصات MCX653106A-HDATاز این رو، این سیستم پشتیبانی از بیش از 200 میلیون بسته در ثانیه را نشان می دهد و توانایی آن را برای مدیریت فشرده ترین جریان داده ها نشان می دهد.MCX653106A-HDAT راه حل کارت آداپتور اترنتبرای بار کاری هدف ما.
استفاده از یک پارچه RoCEv2 نیاز به برنامه ریزی دقیق دارد.MCX653106A-HDAT:
- سازگاری نرم افزار و درایور:اطمینان حاصل کنید که تمام کارت ها با همان نسخه نرم افزار فلش شده اند و درایور NVIDIA MLNX_OFED به طور مداوم در تمام گره ها نصب شده است. این تضمین برابری ویژگی و ثبات است.
- تنظیمات سوئیچ:پیاده سازی PFC در سوئیچ ها برای صف های اولویت 802.1p خاص تعیین شده برای ترافیک RoCE (معمولا اولویت 3) ، ETS باید برای اختصاص پهنای باند تضمین شده برای این صف ها تنظیم شود.جلوگیری از فرسایش بافر.
- پیکربندی گره:در هر سرور،MCX653106A-HDAT سازگاردرایورها بارگذاری می شوند و تنظیمات QoS NIC با پیکربندی سوئیچ هماهنگ می شوند. ابزارهایی مانند 'cma_roce_mode' برای تنظیم حالت RoCE به v2 برای مسیریابی استفاده می شود.
برای گسترش، معماری بسیار مقیاس پذیر است. اضافه کردن ظرفیت محاسباتی یا ذخیره سازی جدید به سادگی به عنوان گسترش سرورهای جدید باNVIDIA Mellanox MCX653106A-HDATو آنها را به سوئیچ های برگ موجود متصل می کند. ماهیت غیر مسدود کننده پارچه تضمین می کند که عملکرد همچنان قابل پیش بینی است.
حفظ یک پارچه RoCE با عملکرد بالا نیازمند نظارت قوی است.MCX653106A-HDATداده های گسترده تله متری را از طریق ابزارهای استاندارد و نرم افزار اختصاصی NVIDIA فراهم می کند.
- نظارت:از'mlxlink' و'mlxstat' برای حسابگرهای یکپارچگی لینک و عملکرد استفاده کنید. با Grafana / Prometheus با استفاده از صادرکنندگان برای تجسم معیارهای کلیدی مانند قطرات بسته، استفاده از لینک،و نرخ ترافیک RDMA.
- رفع مشکل:هنگامی که عملکرد کاهش می یابد، اولین بررسی معمولاً برای قطرات بسته به دلیل طوفان های PFC یا خستگی بافر است. شمارنده های سخت افزاری NIC بینش فوری را در مورد این مسائل فراهم می کنند.صفحه اطلاعات MCX653106A-HDATکمک می کند تا شمارنده ها با رویدادهای خاص ارتباط برقرار کنند.
- بهینه سازی:تنظیم پیشرفته شامل تنظیم پارامترهای اعتدال قطع و اندازه درخواست خواندن PCIe است.فعال کردن SR-IOV و اختصاص عملکردهای مجازی (VF) به طور مستقیم به VM ها تاخیر را بیشتر کاهش می دهد.
در هنگام تهیه سخت افزار، درکقیمت MCX653106A-HDATبرای کسانی که آماده خرید هستند، بررسی میزان افزایش عملکرد برای بودجه بندی ضروری است.MCX653106A-HDAT برای فروشفهرست فروشندگان مجاز تضمین می کند محصولات و پشتیبانی واقعی.
درMCX653106A-HDATاز NVIDIA Mellanox بیش از یک جزء است؛ آن را یک فعال استراتژیک برای تحول مدرن مرکز داده است. با ارائه یک سیستم عامل قوی، ویژگی غنی برای RDMA / RoCE،این به طور مستقیم به نیاز صنعت برای تاخیر کمتر و تولید بالاتر پاسخ می دهد.این راه حل فنی نشان می دهد که با معماری و شیوه های صحیح، سازمان ها می توانند:
- تا 95 درصد کاهش تاخیربرای ارتباطات بین فرآیندها در مقایسه با TCP/IP سنتی.
- صرفه جویی های قابل توجهی در پردازنده(اغلب 20-30٪) که می تواند در عملکرد برنامه سرمایه گذاری شود.
- زیرساخت های مقاوم در آیندهقادر به پشتیبانی از پروتکل های ذخیره سازی 200GbE و نسل بعدی مانند NVMe-oF.
برای معماران شبکه، مهندسان DevOps و رهبران عملیات، مسیر به یک مرکز داده با کارایی بالا با بلوک های ساختمانی مناسب شروع می شود.

