NVIDIA Mellanox MCX653106A-HDAT Server Adapter in Azione: Trasporto a bassa latenza RDMA/RoCE e Server
April 30, 2026
Negli ambienti moderni dei data center, che vanno dall'archiviazione distribuita e dal trading ad alta frequenza ai cluster di formazione di IA su larga scala, i protocolli tradizionali TCP/IP sono diventati un grosso collo di bottiglia.Le spese generali di rete del kernel, la copia dei dati e la commutazione dei contesti consumano risorse CPU significative introducendo una latenza imprevedibile.Questo caso di studio esamina come un fornitore di infrastrutture cloud leader ha superato queste sfideNVIDIA Mellanox MCX653106A-HDATserver NIC, ottenendo miglioramenti drammatici sia nella latenza che nel throughput.
L'infrastruttura 25GbE esistente del fornitore, che esegue lo standard TCP, stava lottando per tenere il passo con il traffico di archiviazione NVMe-oF e i carichi di lavoro di analisi in tempo reale.L'utilizzo della CPU sui nodi di archiviazione supera spesso il 70% solo per l'elaborazione della reteLa latenza end-to-end tra i nodi di calcolo e di archiviazione oscillava tra i 50 e i 150 microsecondi.causando picchi di latenza in coda che hanno avuto un impatto sugli accordi a livello di servizioIl team di ingegneri ha riconosciuto che era necessario un cambiamento fondamentale nell'architettura di rete, una che bypassasse il kernel e consentisse l'accesso diretto alla memoria tra gli endpoint.
Dopo aver valutato molteplici opzioni, il team ha selezionatoscheda di adattatore Ethernet MCX653106A-HDATQuesto nuovo sistema, basato sull'architettura ConnectX-6,MCX653106A-HDAT ConnectX adattatore scheda di rete PCIeoffre connettività a doppia porta 100GbE con supporto hardware nativo per RoCE (RDMA over Converged Ethernet).
- Fase 1:Sostituire le NIC legacy nei nodi di archiviazione (10 nodi che eseguono Ceph) con il nuovo adattatore.
- Fase 2:Configurare Ethernet senza perdite utilizzando DCB (Priority Flow Control e ETS) su NIC e switch top-of-rack.
- Fase 3:Migrare il traffico delle applicazioni dai socket TCP ai verbi basati su RDMA e NVMe-oF su RoCE.
- Fase 4:Estendere la distribuzione ai nodi di calcolo che gestiscono analisi in tempo reale.
Ingegneri consulentiFogli di dati MCX653106A-HDAT- eLe specifiche MCX653106A-HDATIl programma di programmazione di Ubuntu ha confermato la piena compatibilità con il tessuto di commutazione Mellanox esistente e la distribuzione Linux distribuita (Ubuntu 22.04 con driver MLNX_OFED).Compatibile con MCX653106A-HDATL'ecosistema si è dimostrato completo, non richiedendo modifiche hardware oltre alla sostituzione del NIC stesso.
I test post-implementazione hanno rivelato miglioramenti sostanziali in tutti i parametri chiave.
| Metrica | Prima (25GbE TCP) | Dopo (MCX653106A-HDAT RoCE) | Miglioramento |
|---|---|---|---|
| La latenza media (P99) | 120 μs | 8 μs | Riduzione del 93% |
| CPU del nodo di archiviazione (via di rete) | ~65% | ~12% | 5.4x riduzione |
| NVMe-oF Read Throughput (per nodo) | 18 Gb/s | 96 Gb/s | 5Aumento di 0,3x |
| Tasso di trasmissione dei messaggi (64B pacchetti) | 15 Mpps | 215 Mpps | 14Aumento di 0,3x |
Oltre a questi guadagni quantitativi, il team ha osservato diversi benefici qualitativi.Soluzione per schede di adattamento Ethernet MCX653106A-HDATha permesso il vero movimento di dati a copia zero tra la memoria dell'applicazione e lo storage remoto, eliminando i problemi di esaurimento del buffer che in precedenza causavano guasti intermittenti durante gli scoppi di traffico.Per il carico di lavoro di analisi, la migrazione al RDMA ha ridotto i tempi di completamento del lavoro del 62%, migliorando direttamente i risultati aziendali.MCX653106A-HDAT prezzoLa riduzione del 30% del numero di nodi di stoccaggio (a causa di una maggiore efficienza per nodo) ha dato risultati entro nove mesi.MCX653106A-HDAT in venditaattraverso i partner NVIDIA ha anche incluso l'accesso al framework DOCA, sbloccando la programmabilità futura per le funzioni di rete personalizzate.
Il lancio diNVIDIA Mellanox MCX653106A-HDATLa combinazione di RoCE con hardware offloaded e RoCE con hardware offloaded ha permesso di trasformare l'infrastruttura del provider da un ambiente limitato al TCP in un tessuto ad alte prestazioni e a bassa latenza in grado di supportare carichi di lavoro moderni.,L'interfaccia PCIe 4.0 e l'ecosistema software completo soddisfano le tre esigenze critiche dei data center di oggi: riduzione della latenza, aumento del throughput e miglioramento dell'efficienza della CPU.
Per gli architetti che valutano aggiornamenti simili, il percorso inizia con la verificaCompatibile con MCX653106A-HDATI componenti, compresi gli interruttori, i cavi e i sistemi operativi.Fogli di dati MCX653106A-HDATL'intelligenza artificiale (AI) è una tecnologia che fornisce specifiche di potenza, termica e meccanica per la pianificazione dell'integrazione.scheda di adattatore Ethernet MCX653106A-HDATIl fornitore sta ora espandendo la distribuzione per includere la GPU direct RDMA per i carichi di lavoro di inferenza AI,ulteriore convalida di questo adattatore come pietra angolare della moderna architettura del data center.

