NVIDIA Mellanox MCX556A-ECAT in Azione: RDMA/RoCE Abilita Latenza Ultra-Bassa e Sfondamenti di Throughput del Server
April 23, 2026
Nello storage distribuito, nell'High Performance Computing (HPC) e nei cluster di formazione AI, la latenza della rete e il sovraccarico della CPU hanno a lungo limitato l'efficienza complessiva del server.Una recente implementazione presso un fornitore di servizi cloud su larga scala dimostra come laNVIDIA Mellanox MCX556A-ECATRisoluzione di queste sfide attraverso tecnologie RDMA e RoCE, con risultati misurabili sia in termini di throughput che di riduzione della latenza.
Il cliente gestisce un cluster di memorizzazione Ceph multi-petabyte che supporta migliaia di macchine virtuali.la loro infrastruttura 25GbE che utilizza lo standard TCP/IP ha sofferto di un'elevata utilizzazione della CPU (oltre il 60% sui nodi di archiviazione) e di una latenza incoerente durante i picchi di caricoIl team aveva bisogno di una soluzione che potesse ridurre l'intervento della CPU, ridurre la latenza, ridurre l'interruzione del tempo di trasmissione, ridurre la latenza, ridurre l'interruzione del tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre la latenza, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione, ridurre il tempo di trasmissione e ridurre il tempo di trasmissione.e scalare senza una revisione completa delle infrastruttureDopo aver esaminato laFogli di dati MCX556A-ECATe confrontareSpecificativi MCX556A-ECAT, hanno selezionato ilMCX556A-ECATcome componente di aggiornamento di base.
L'architettura era incentrata sulscheda di adattatore Ethernet MCX556A-ECAT, un adattatore 100GbE a doppia porta che supporta PCIe 3.0/4.0 x16.MCX556A-ECAT ConnectX adattatore scheda di rete PCIe, ha abilitato il RoCE v2 attraverso la topologia di leaf-spine esistente con cambiamenti minimi degli interruttori.
- Sostituzione degli adattatori legacy 25GbE conMCX556A-ECATsu 40 nodi di memorizzazione e 150 nodi di calcolo.
- Abilitazione degli offload hardware: NVMe over Fabrics (NVMe-oF), GPUDirect RDMA e T10-DIF per l'integrità dei dati.
- Configurazione del controllo di flusso prioritario (PFC) e della selezione di trasmissione migliorata (ETS) per il trasporto RoCE senza perdite.
- VerificazioneCompatibile con MCX556A-ECATlo stato con gli switch Mellanox Spectrum esistenti e l'ottica QSFP28.
L'intera implementazione ha richiesto due fine settimana, con zero tempi di inattività utilizzando la migrazione dal vivo per i carichi di lavoro di calcolo.
Le misurazioni effettuate dopo l'implementazione hanno rivelato miglioramenti drammatici in tutti i parametri chiave.
| Metrica | Prima (25GbE TCP/IP) | Dopo (MCX556A-ECAT con RoCE) | Miglioramento |
|---|---|---|---|
| Utilizzazione della CPU dei nodi di archiviazione | 62% | 18% | ↓ 71% |
| La latenza media (4K lettura casuale) | 450 μs | 42 μs | ↓ 90,7% |
| Trasmissione aggregata dei cluster | 38 Gb/s | 172 Gb/s | ↑ 353% |
| Durata della finestra di backup | 8.5 ore | 1.8 ore | ↓ 79% |
Oltre ai numeri, il team di ingegneri ha riferito che RDMA ha ridotto significativamente il jitter, eliminando i picchi di "latenza della coda" che in precedenza affliggevano i checkpoint di addestramento dell'IA.Soluzione per schede di adattamento Ethernet MCX556A-ECAT, la scheda ha anche semplificato la risoluzione dei problemi tramite telemetria integrata e notifica di congestione.Prezzo MCX556A-ECATInfatti, il cliente ha ottenuto il ROI entro nove mesi, grazie esclusivamente al risparmio di CPU core e al completamento più rapido del batch.MCX556A-ECAT in venditaattraverso partner di più canali, rendendo accessibile questo livello di prestazione anche alle imprese di livello medio.
Il lancio dimostra che laMCX556A-ECATIn base alle sue caratteristiche, il sistema offre una latenza RDMA di sotto-microsegundo, un drastico ridimensionamento della CPU e una scalabilità del throughput lineare.NVIDIA Mellanox MCX556A-ECATCome 100GbE diventa il nuovo standard per le spine del data center, le soluzioni costruite attorno a questo adattatore continueranno a superare le stacks TCP/IP legacy.Per la pianificazione dettagliata, si riferisce al funzionarioFogli di dati MCX556A-ECATo consultare gli architetti di soluzione per convalidareCompatibile con MCX556A-ECATconfigurazioni per il vostro ambiente specifico.

