NVIDIA Mellanox MCX653105A-HDAT Server Adapter راه حل فنی: حمل و نقل کم تاخیر RDMA / RoCE برای سرور حداکثر
March 16, 2026
مراکز داده مدرن تحت فشار بیسابقهای برای ارائه بینشهای سریعتر از مجموعه دادههای عظیم قرار دارند. چه برای تامین انرژی خوشههای آموزشی هوش مصنوعی، تحلیلهای مالی بیدرنگ، یا پلتفرمهای معاملاتی با فرکانس بالا، زیرساخت شبکه اغلب به گلوگاه اصلی عملکرد تبدیل میشود. شبکههای سنتی مبتنی بر TCP/IP به دلیل پردازش هسته و کپی دادهها، سربار قابل توجهی را به CPU تحمیل میکنند که منجر به افزایش تأخیر و کاهش توان عملیاتی مؤثر میشود. با افزایش تعداد هستههای CPU و فراگیر شدن ذخیرهسازی NVMe، شبکه باید تکامل یابد تا از انتقال مستقیم و پرسرعت دادهها بدون فشار بر پردازندههای میزبان پشتیبانی کند.
نیازمندی روشن است: معماران به راهحلی شبکهای نیاز دارند که از دسترسی مستقیم حافظه از راه دور (RDMA) برای دور زدن هسته سیستمعامل پشتیبانی کند و امکان انتقال مستقیم دادهها بین حافظه سرور و ذخیرهسازی یا سرورهای دیگر را فراهم کند. RDMA بر روی اترنت همگرا (RoCE) به عنوان استاندارد پیشرو ظهور کرده است و تأخیر در کلاس InfiniBand را بر روی زیرساخت اترنت استاندارد ارائه میدهد. آداپتور سرور NVIDIA Mellanox MCX653105A-HDAT برای رفع این نیازها ساخته شده است و پایه سختافزاری را برای یک شبکه RoCE با کارایی بالا و بدون اتلاف که توان عملیاتی سرور را به حداکثر میرساند و تأخیر برنامه را به حداقل میرساند، فراهم میکند.
معماری پیشنهادی بر روی یک شبکه اترنت بدون مسدودکننده، ستون فقرات-برگ (spine-leaf) متمرکز است که برای پشتیبانی از ترافیک RoCEv2 طراحی شده است. این توپولوژی اتصال هر به هر را با تأخیر کم قابل پیشبینی و پهنای باند بالا تضمین میکند. ملاحظات کلیدی طراحی شامل موارد زیر است:
- پیکربندی شبکه بدون اتلاف: برای فعال کردن RoCE، شبکه باید بدون اتلاف باشد. این امر از طریق کنترل جریان اولویت (PFC) مطابق با IEEE 802.1Qbb حاصل میشود که با توقف جریانهای با اولویت پایین در هنگام وقوع ازدحام، از افت بستهها برای ترافیک RDMA با اولویت بالا جلوگیری میکند.
- مدیریت ازدحام: اعلان صریح ازدحام (ECN) بستهها را برای سیگنالدهی ازدحام به نقاط پایانی علامتگذاری میکند و به آداپتورهای MCX653105A-HDAT اجازه میدهد تا قبل از وقوع سرریز بافر، نرخ انتقال را کاهش دهند.
- طراحی برگ و ستون فقرات: هر سرور با سرعت 100GbE به یک سوئیچ برگ متصل میشود. سپس سوئیچهای برگ به چندین سوئیچ ستون فقرات متصل میشوند و پهنای باند کامل مقطع را فراهم میکنند. این معماری با افزایش تعداد رکها به صورت خطی مقیاسپذیر است.
- بخشهای ذخیرهسازی و محاسباتی: این شبکه از ترافیک ذخیرهسازی NVMe-oF و ارتباطات بین سرور برای برنامههای توزیع شده پشتیبانی میکند، که همگی از همان زیرساخت مجهز به RoCE استفاده میکنند.
در این معماری، NVIDIA Mellanox MCX653105A-HDAT به عنوان نقطه پایانی حیاتی عمل میکند و به سرورها اجازه میدهد تا به طور کامل در شبکه RDMA شرکت کنند و در عین حال وظایف شبکه را از CPU تخلیه کنند.
آداپتور سرور MCX653105A-HDAT یک آداپتور دو پورته 100 گیگابیت بر ثانیه بر اساس معماری NVIDIA Mellanox ConnectX-6 است. این آداپتور سنگ بنای راهحل RDMA/RoCE پیشنهادی است و چندین قابلیت کلیدی را ارائه میدهد:
- تخلیه سختافزاری RoCE: آداپتور تمام توابع انتقال RDMA را در سختافزار مدیریت میکند، از جمله کپسولهسازی بسته، قابلیت اطمینان و کنترل ازدحام. این تضمین میکند که هستههای CPU برای پردازش برنامه آزاد میمانند و مستقیماً به بهبود توان عملیاتی سرور کمک میکنند.
- پشتیبانی از PCIe Gen3/Gen4: با پشتیبانی تا PCIe 4.0 x16، کارت آداپتور اترنت MCX653105A-HDAT پهنای باند کافی میزبان را برای دستیابی به سرعت خطی 100 گیگابیت بر ثانیه در هر دو پورت به طور همزمان فراهم میکند که برای بارهای کاری پرتقاضای NVMe-oF و HPC ضروری است.
- مجازیسازی پیشرفته: شتابدهندههای SR-IOV و VirtIO به آداپتور اجازه میدهند تا عملکرد تقریباً بومی را به بارهای کاری مجازی شده ارائه دهد و آن را برای محیطهای ابری و NFV مناسب میسازد.
- خط لوله قابل برنامهریزی: تجزیهکننده انعطافپذیر پردازش بستههای سفارشی و تخلیه پروتکلهای جدید را بدون ارتقاء سختافزار امکانپذیر میسازد و سرمایهگذاری را در برابر آینده مقاوم میکند.
طبق مشخصات رسمی MCX653105A-HDAT، این آداپتور همچنین از رمزنگاری درون خطی مبتنی بر سختافزار و مدیریت کلید پشتیبانی میکند و RDMA امن را بدون افت عملکرد ارائه میدهد. این امر به ویژه برای خدمات مالی و استقرار ابر چند مستأجر که در آن جداسازی و رمزگذاری دادهها اجباری است، حیاتی است.
یک رویکرد استقرار مرحلهای برای به حداقل رساندن ریسک و اطمینان از عملکرد بهینه توصیه میشود:
- مرحله 1 – خوشه آزمایشی: واحدهای کارت شبکه PCIe آداپتور MCX653105A-HDAT ConnectX را در یک خوشه کوچک از سرورهای پایگاه داده و ذخیرهسازی مستقر کنید. سوئیچهای برگ را برای فعال کردن PFC و ECN در پورتهای متصل به این سرورها پیکربندی کنید. عملکرد RDMA را با استفاده از ابزارهای بنچمارک مانند perftest تأیید کنید.
- مرحله 2 – ادغام شبکه ذخیرهسازی: استقرار را به تمام گرههای ذخیرهسازی گسترش دهید. ترافیک NVMe-oF را به شبکه RoCE منتقل کنید. سازگاری MCX653105A-HDAT با نرمافزارهای اصلی ذخیرهسازی، انتقال روان را تضمین میکند.
- مرحله 3 – راهاندازی کامل تولید: راهکار کارت آداپتور اترنت MCX653105A-HDAT را در تمام گرههای محاسباتی مستقر کنید. RDMA را برای برنامههای توزیع شده مانند Spark، TensorFlow و پایگاههای داده درون حافظه فعال کنید.
برای مقیاسپذیری، اطمینان حاصل کنید که شبکه ستون فقرات-برگ برای مدیریت ترافیک اوج، بیش از حد تأمین شده است. با افزایش تعداد MCX653105A-HDAT برای فروش در استقرار شما، از مدیر یکپارچه شبکه (UFM) انویدیا برای بهینهسازی خودکار شبکه و نظارت بر سلامت استفاده کنید.
حفظ یک شبکه RoCE با کارایی بالا نیازمند نظارت و تنظیم فعال است:
- ابزارهای نظارت: از Mellanox NEO و UFM برای نظارت بر سلامت شبکه، ردیابی فریمهای مکث PFC و شناسایی نقاط داغ ازدحام استفاده کنید. دیتاشیت MCX653105A-HDAT اطلاعات شمارنده دقیقی را که از طریق ابزارهای استاندارد مانند ethtool در دسترس است، ارائه میدهد.
- تنظیم عملکرد: تجمع وقفهها، اندازههای بافر حلقه و پارامترهای PCIe را بر اساس ویژگیهای بار کاری تنظیم کنید. ویژگیهای پیشرفته آداپتور، مانند تعدیل وقفههای پویا (DIM)، میتواند بر اساس الگوهای ترافیک به طور خودکار تنظیم شود.
- عیبیابی: مشکلات رایج شامل طوفانهای PFC به دلیل QoS نادرست پیکربندی شده یا اتمام بافر است. پیکربندی QoS سازگار را در تمام سوئیچها و نقاط پایانی اطمینان حاصل کنید. تأیید کنید که قیمت MCX653105A-HDAT از نظر عملکرد با آزمایشهای اعتبارسنجی منظم توجیه میشود.
- بهروزرسانیهای میانافزار و درایور: میانافزار آداپتور و پشته درایور NVIDIA را بهروز نگه دارید تا از آخرین بهینهسازیها و رفع اشکالات بهرهمند شوید. کارت آداپتور اترنت MCX653105A-HDAT از میانافزار قابل ارتقاء در محل برای بهروزرسانیهای بدون وقفه پشتیبانی میکند.
آداپتور سرور NVIDIA Mellanox MCX653105A-HDAT پایهای قوی و با کارایی بالا را برای معماریهای مراکز داده مدرن که نیازمند تأخیر کم و توان عملیاتی بالا هستند، فراهم میکند. با فعال کردن RDMA/RoCE مبتنی بر سختافزار، مستقیماً گلوگاه سربار CPU را برطرف میکند و منابع محاسباتی را برای برنامههای درآمدزا آزاد میکند. راهحل شرح داده شده در اینجا مسیری روشن به سوی یک شبکه اترنت مقیاسپذیر و بدون اتلاف ارائه میدهد که قادر به پشتیبانی از پرتقاضاترین بارهای کاری، از آموزش هوش مصنوعی تا تحلیلهای مالی بیدرنگ است. برای معمارانی که به دنبال زیرساخت شبکه آیندهنگر هستند، MCX653105A-HDAT یک بلوک ساختمانی حیاتی است که هم افزایش عملکرد فوری و هم ارزش بلندمدت را ارائه میدهد.

