NVIDIA Mellanox MCX653106A-HDAT Server Adapter in Azione: Trasporto a bassa latenza RDMA/RoCE e Server

April 30, 2026

ultime notizie sull'azienda NVIDIA Mellanox MCX653106A-HDAT Server Adapter in Azione: Trasporto a bassa latenza RDMA/RoCE e Server

Negli ambienti moderni dei data center, che vanno dall'archiviazione distribuita e dal trading ad alta frequenza ai cluster di formazione di IA su larga scala, i protocolli tradizionali TCP/IP sono diventati un grosso collo di bottiglia.Le spese generali di rete del kernel, la copia dei dati e la commutazione dei contesti consumano risorse CPU significative introducendo una latenza imprevedibile.Questo caso di studio esamina come un fornitore di infrastrutture cloud leader ha superato queste sfideNVIDIA Mellanox MCX653106A-HDATserver NIC, ottenendo miglioramenti drammatici sia nella latenza che nel throughput.

Sfondo e sfide: Il collo di bottiglia TCP/IP

L'infrastruttura 25GbE esistente del fornitore, che esegue lo standard TCP, stava lottando per tenere il passo con il traffico di archiviazione NVMe-oF e i carichi di lavoro di analisi in tempo reale.L'utilizzo della CPU sui nodi di archiviazione supera spesso il 70% solo per l'elaborazione della reteLa latenza end-to-end tra i nodi di calcolo e di archiviazione oscillava tra i 50 e i 150 microsecondi.causando picchi di latenza in coda che hanno avuto un impatto sugli accordi a livello di servizioIl team di ingegneri ha riconosciuto che era necessario un cambiamento fondamentale nell'architettura di rete, una che bypassasse il kernel e consentisse l'accesso diretto alla memoria tra gli endpoint.

Soluzione: distribuzione di MCX653106A-HDAT con RoCE

Dopo aver valutato molteplici opzioni, il team ha selezionatoscheda di adattatore Ethernet MCX653106A-HDATQuesto nuovo sistema, basato sull'architettura ConnectX-6,MCX653106A-HDAT ConnectX adattatore scheda di rete PCIeoffre connettività a doppia porta 100GbE con supporto hardware nativo per RoCE (RDMA over Converged Ethernet).

  • Fase 1:Sostituire le NIC legacy nei nodi di archiviazione (10 nodi che eseguono Ceph) con il nuovo adattatore.
  • Fase 2:Configurare Ethernet senza perdite utilizzando DCB (Priority Flow Control e ETS) su NIC e switch top-of-rack.
  • Fase 3:Migrare il traffico delle applicazioni dai socket TCP ai verbi basati su RDMA e NVMe-oF su RoCE.
  • Fase 4:Estendere la distribuzione ai nodi di calcolo che gestiscono analisi in tempo reale.

Ingegneri consulentiFogli di dati MCX653106A-HDAT- eLe specifiche MCX653106A-HDATIl programma di programmazione di Ubuntu ha confermato la piena compatibilità con il tessuto di commutazione Mellanox esistente e la distribuzione Linux distribuita (Ubuntu 22.04 con driver MLNX_OFED).Compatibile con MCX653106A-HDATL'ecosistema si è dimostrato completo, non richiedendo modifiche hardware oltre alla sostituzione del NIC stesso.

Risultati e benefici: trasformazione misurabile

I test post-implementazione hanno rivelato miglioramenti sostanziali in tutti i parametri chiave.

Metrica Prima (25GbE TCP) Dopo (MCX653106A-HDAT RoCE) Miglioramento
La latenza media (P99) 120 μs 8 μs Riduzione del 93%
CPU del nodo di archiviazione (via di rete) ~65% ~12% 5.4x riduzione
NVMe-oF Read Throughput (per nodo) 18 Gb/s 96 Gb/s 5Aumento di 0,3x
Tasso di trasmissione dei messaggi (64B pacchetti) 15 Mpps 215 Mpps 14Aumento di 0,3x

Oltre a questi guadagni quantitativi, il team ha osservato diversi benefici qualitativi.Soluzione per schede di adattamento Ethernet MCX653106A-HDATha permesso il vero movimento di dati a copia zero tra la memoria dell'applicazione e lo storage remoto, eliminando i problemi di esaurimento del buffer che in precedenza causavano guasti intermittenti durante gli scoppi di traffico.Per il carico di lavoro di analisi, la migrazione al RDMA ha ridotto i tempi di completamento del lavoro del 62%, migliorando direttamente i risultati aziendali.MCX653106A-HDAT prezzoLa riduzione del 30% del numero di nodi di stoccaggio (a causa di una maggiore efficienza per nodo) ha dato risultati entro nove mesi.MCX653106A-HDAT in venditaattraverso i partner NVIDIA ha anche incluso l'accesso al framework DOCA, sbloccando la programmabilità futura per le funzioni di rete personalizzate.

Conclusioni e prospettive: una base per le infrastrutture di nuova generazione

Il lancio diNVIDIA Mellanox MCX653106A-HDATLa combinazione di RoCE con hardware offloaded e RoCE con hardware offloaded ha permesso di trasformare l'infrastruttura del provider da un ambiente limitato al TCP in un tessuto ad alte prestazioni e a bassa latenza in grado di supportare carichi di lavoro moderni.,L'interfaccia PCIe 4.0 e l'ecosistema software completo soddisfano le tre esigenze critiche dei data center di oggi: riduzione della latenza, aumento del throughput e miglioramento dell'efficienza della CPU.

Per gli architetti che valutano aggiornamenti simili, il percorso inizia con la verificaCompatibile con MCX653106A-HDATI componenti, compresi gli interruttori, i cavi e i sistemi operativi.Fogli di dati MCX653106A-HDATL'intelligenza artificiale (AI) è una tecnologia che fornisce specifiche di potenza, termica e meccanica per la pianificazione dell'integrazione.scheda di adattatore Ethernet MCX653106A-HDATIl fornitore sta ora espandendo la distribuzione per includere la GPU direct RDMA per i carichi di lavoro di inferenza AI,ulteriore convalida di questo adattatore come pietra angolare della moderna architettura del data center.