Soluzione Tecnica Scheda Server NVIDIA Mellanox MCX4121A-ACAT: Architettura RDMA/RoCE per Bassa Latenza e Massimo

March 9, 2026

Soluzione Tecnica Scheda Server NVIDIA Mellanox MCX4121A-ACAT: Architettura RDMA/RoCE per Bassa Latenza e Massimo


1. Analisi del contesto e dei requisiti del progetto

I moderni data center sono sotto pressione costante per supportare carichi di lavoro sempre più impegnativi, tra cui analisi in tempo reale, formazione distribuita di apprendimento automatico,e storage software-defined ad alte prestazioniLe architetture di rete tradizionali, fortemente dipendenti dallo stack TCP/IP, introducono una latenza significativa e costi generali della CPU.l'approccio "kernel bypass" diventa non solo un vantaggio, ma una necessità.Gli architetti di rete e gli ingegneri di storage sono alla ricerca di soluzioni in grado di sfruttare appieno il potenziale delle architetture NVMe-oF e dei microservizi senza richiedere una revisione completa dell'infrastrutturaI requisiti primari identificati in una tipica distribuzione su larga scala includono latenza inferiore ai 10 microsecondi per il traffico di archiviazione, una riduzione del 40% delle spese generali della CPU per l'I/O di rete,e un tessuto unificato in grado di trasportare sia il traffico TCP/IP standard che il traffico RDMA a latenza ultra bassa.

2. Progettazione complessiva dell'architettura di rete e sistema

L'architettura proposta si concentra su un tessuto Ethernet convergente senza perdite progettato per supportare sia il traffico LAN standard che il traffico di archiviazione sulla stessa infrastruttura fisica.Il progetto sfrutta una topologia a spina dorsale con switch capaci di RoCE (RDMA over Converged Ethernet)I principi chiave di progettazione includono:

  • Tessuti convergenti:Una singola rete 25GbE trasporta tutti i tipi di traffico, eliminando la necessità di reti di archiviazione e dati separate (convergenza LAN/SAN).
  • Fondazione Ethernet senza perdite:Attuazione del controllo dei flussi prioritari (PFC, IEEE 802.1Qbb) e della selezione di trasmissione migliorata (ETS, IEEE 802.1Qaz) per creare una classe di servizio senza perdite per il traffico RDMA,prevenire le cadute di pacchetti che altrimenti causerebbero catastrofici picchi di latenza.
  • RDMA end-to-end:Implementazione di RoCEv2, che opera al livello di rete, consentendo a RDMA di attraversare i confini di L3 e scalare oltre un singolo dominio di broadcast, a differenza di RoCEv1.

In questa architettura, l'endpoint del server è il componente più critico.NVIDIA Mellanox MCX4121A-ACATl'adattatore server svolge il suo ruolo fondamentale, agendo come l'interfaccia intelligente che esegue il protocollo RoCE e scarica le complesse funzioni di rete dalla CPU host.

3. Ruolo del NVIDIA Mellanox MCX4121A-ACAT nella soluzione

Ilscheda di adattatore Ethernet MCX4121A-ACATQuesto programma è basato sul controller ConnectX-4 Lx,MCX4121A-ACAT ConnectX-4 Lx a doppia porta 25GbE SFP28l'adattatore fornisce l'accelerazione hardware necessaria per raggiungere gli obiettivi del progetto.

  • Motore RoCE hardware:L'adattatore implementa l'intero protocollo RoCEv2 in silicio, il che significa che le operazioni RDMA, incluse le letture/scritture in memoria e i verbi di invio/ricezione, vengono elaborate interamente sul NIC.bypassando il kernel ed eliminando gli interruttori di contestoQuesto è il meccanismo primario per raggiungere una latenza applicativa di sotto dei 10 microsecondi.
  • NVMe-oF Offload:Per il traffico di stoccaggio, ilMCX4121A-ACATsupporta NVMe over Fabrics (NVMe-oF) con RDMA. Scondiziona l'elaborazione della coppia di coda NVMe, consentendo al target di archiviazione o all'iniziatore di gestire milioni di IOPS con un minimo intervento della CPU.
  • Moderazione dinamica di interruzione:L'adattatore modera in modo intelligente le interruzioni, combinandole in base al carico del traffico.Questo riduce il sovraccarico della CPU host durante gli scenari ad alta throughput mantenendo una bassa latenza per il traffico sensibile consentendo interruzioni per code specifiche per bypassare la moderazione.
  • L'applicazione della qualità del servizio (QoS):Supporta QoS basato su hardware, consentendo agli architetti di assegnare diverse classi di traffico (ad esempio, storage, gestione, calcolo) a diverse code di priorità.Questo garantisce che il traffico RDMA riceva larghezza di banda garantita e bassa latenza, anche durante la congestione della rete.

4- Raccomandazioni per la distribuzione e la moltiplicazione

Si raccomanda un approccio di distribuzione graduale per ridurre al minimo il rischio.

  • Fase pilota:Implementare un piccolo gruppo di server di archiviazione e nodi di calcolo, ciascuno dotato delMCX4121A-ACATValida la configurazione PFC/ETS per garantire un tessuto senza perdite per il traffico RoCE.
  • Integrazione e collaudoConfigurare ilSoluzione per schede di adattamento Ethernet MCX4121A-ACATUtilizzare i driver e gli strumenti raccomandati da NVIDIA comeperfettestper misurare la latenza di riferimento (ib_send_lat) e la larghezza di banda (ib_send_bw).
  • Scalare il tessuto:Una volta che il pilota è stabile, scalare a una topologia di spina dorsale completa. Assicurarsi che gli interruttori di spina dorsale siano anche RoCE-consapevoli per mantenere marchi QoS senza perdite in tutta la rete.NVIDIA Mellanox MCX4121A-ACATPermette l'aggregazione di link attivo/in standby o 802.3ad per ridondanza e maggiore throughput.
  • Controlli di compatibilità:Verificare sempreMCX4121A-ACAT compatibileIl programma di ricerca è stato sviluppato perLe specifiche MCX4121A-ACAT- eFogli di dati MCX4121A-ACATIl programma di acquisto deve essere rivisto per garantire la compatibilità con le schede madri dei server, le impostazioni del BIOS e il firmware degli switch.Prezzo MCX4121A-ACATIn questo caso, la Commissione ha adottato una proposta di regolamento (CE) n.MCX4121A-ACAT in venditaacquisti.

5Monitoraggio operativo, risoluzione dei problemi e ottimizzazione

Il mantenimento delle massime prestazioni richiede un monitoraggio proattivo e una solida comprensione del comportamento del tessuto RoCE.

  • Monitoraggio del traffico RDMA:Utilizzare strumenti comeEticole,mlxstat, e di NVIDIAUFM (Unified Fabric Manager)Per monitorare la temperatura dell'adattatore, gli errori di collegamento e gli stati della coppia di coda RDMA, le metriche critiche includono: gocce di pacchetti RoCE, conteggi di frame di pausa PFC e utilizzo della larghezza di banda PCIe.
  • Isolamento da guasti:L'alta latenza nel traffico RDMA è quasi sempre causata da cadute di pacchetti a causa della congestione.indica un collo di bottiglia a valle (e.g., su una porta di uscita dell'interruttore).MCX4121A-ACATI contatori avanzati possono aiutare a individuare l'esatta fonte della congestione.
  • Tuning delle prestazioni:
    • Dimensione MTU:Aumentare a 9000 byte (jumbo frame) sia sull'adattatore che sui switch per ridurre il sovraccarico per pacchetto e migliorare le grandi prestazioni di I/O.
    • Scalazione del lato ricevitore (RSS):Assicurarsi che RSS sia configurato per distribuire il traffico su più core CPU, consentendo all'adattatore di gestire alti tassi di pacchetti al secondo (PPS).
    • Tuning del buffer:Regolare i buffer di ricezione e di trasmissione dell'adattatore in base alle caratteristiche del carico di lavoro (ad esempio, buffer più grandi per lo storage, più piccoli per l'HPC).

6Conclusioni e valutazione del valore

IlMCX4121A-ACATNVIDIA Mellanox fornisce una base matura e ad alte prestazioni per costruire data center di nuova generazione.le organizzazioni possono ottenere risultati trasformativi: il throughput del server può essere massimizzato poiché la CPU è liberata dalla sovraccarico di rete; la latenza è drasticamente ridotta a microsecondi a una sola cifra, consentendo applicazioni in tempo reale;e il costo totale di proprietà è ridotto attraverso la convergenza delle infrastrutturePer gli architetti che pianificano la loro tabella di marcia 25GbEMCX4121A-ACATrappresenta un investimento strategico in prestazioni ed efficienza, sostenuto dal robusto ecosistema NVIDIA Mellanox.