Switch InfiniBand Mellanox (NVIDIA) MQM9790-NS2F in azione | Ottimizzazione dell'interconnessione a bassa latenza per RDMA/HPC/AI

May 28, 2026

Mentre i cluster di formazione AI su larga scala e i centri di calcolo ad alte prestazioni (HPC) spingono i requisiti di larghezza di banda e latenza della rete a livelli senza precedenti, le soluzioni Ethernet tradizionali lottano sempre più con il controllo della congestione e la latenza di coda imprevedibile sotto i carichi di lavoro RDMA. Un importante centro nazionale di supercalcolo ha recentemente dovuto affrontare proprio questa sfida durante l'aggiornamento del suo cluster GPU di prossima generazione. Dopo aver valutato diverse opzioni di interconnessione, il team ha selezionato laMellanox (NVIDIA) MQM9790-NS2Fcome switch dell'infrastruttura principale: una decisione che ha trasformato radicalmente il profilo prestazionale del cluster.

Contesto e sfida: il muro della scalabilità

Il tessuto HDR InfiniBand esistente del centro di supercalcolo funzionava quasi alla saturazione. Con oltre 2.000 GPU che eseguivano lavori di training AI paralleli, le operazioni di comunicazione collettiva come all-reduce e all-to-all registravano picchi significativi di latenza della coda. La rete era diventata il collo di bottiglia principale, causando tempi di inattività della GPU che sprecavano sia risorse di calcolo che energia. Gli ingegneri hanno stimato che quasi il 30% dei cicli di elaborazione è andato perso a causa del sovraccarico di comunicazione durante esecuzioni di formazione distribuite su larga scala.

Ciò di cui il team aveva bisogno era un interruttore in grado di fornire risultati400 Gb/s per porta, supporto RDMA nativo e accelerazione informatica in rete, il tutto mantenendo la compatibilità con le versioni precedenti dell'infrastruttura HDR esistente. Dopo aver esaminato ilScheda tecnica MQM9790-NS2FESpecifiche MQM9790-NS2F, hanno stabilito che ilInterruttore InfiniBand MQM9790-NS2Foffriva l'equilibrio ideale tra densità, prestazioni e set di funzionalità.

Soluzione e distribuzione: aggiornamento del fabric NDR a 64 porte

Il centro ne ha schierati quattroMQM9790-NS2F OSFP NDR a 64 porte da 400 Gb/scommuta in una topologia spine-leaf, interconnettendo 2.048 GPU su 64 nodi di elaborazione. Ogni nodo si collega tramite un singolo cavo splitter da OSFP a 4x100 Gb/s, fornendo una larghezza di banda aggregata di 400 Gb/s per server e ottimizzando al tempo stesso la densità di gestione dei cavi.

Parametro di distribuzione	Configurazione
Cambia modello	NVIDIA Mellanox MQM9790-NS2F(4 unità)
Configurazione della porta	OSFP 64x, NDR da 400 Gb/s per porta
GPU totali	2.048 (NVIDIA H100)
Funzionalità in rete	SHARPv3, routing adattivo, controllo della congestione

La chiave per l'implementazione è stata garantire la pienaCompatibile con MQM9790-NS2Ffunzionamento con gli adattatori endpoint HDR esistenti. La negoziazione automatica della velocità dello switch e la traduzione del livello di collegamento hanno consentito una strategia di migrazione graduale: i nodi legacy operano a velocità HDR mentre i nuovi server con funzionalità NDR sfruttano l'intera larghezza di banda di 400 Gb/s. Il centro ha inoltre utilizzato l'aggregazione in rete SHARPv3, riducendo il traffico di oltre il 65% per i messaggi di grandi dimensioni comunemente presenti nella formazione LLM.

Per coloro che stanno valutando aggiornamenti simili,Prezzo MQM9790-NS2Fdomande eMQM9790-NS2F in venditala disponibilità è aumentata in modo significativo tra i clienti aziendali e di ricerca. Il costo totale di proprietà competitivo dello switch, tenendo conto del numero inferiore di switch dovuto alla densità di 64 porte, lo rende un'opzione interessante sia per le nuove costruzioni che per i progetti di aggiornamento.

Risultati e vantaggi: miglioramenti delle prestazioni misurabili

Riduzione totale della latenza (messaggio da 1 GB):Ridotto da 48μs a 19μs (miglioramento del 60%)
Utilizzo efficace della GPU:Aumentato dal 71% al 93% durante l'allenamento su larga scala
Tempo di completamento del lavoro (equivalente a GPT-3 175B):Ridotto del 41%
Latenza della coda indotta dalla rete (99° percentile):Taglia da 210 µs a meno di 35 µs

Come unSoluzione switch InfiniBand MQM9790-NS2F, l'implementazione ha dimostrato che i tessuti NDR da 400 Gb/s possono mantenere le promesse teoriche. La combinazione di algoritmi di controllo della congestione e routing adattivo ha eliminato i modelli di collasso "incast" che affliggevano il precedente tessuto HDR durante le fasi di comunicazione all-to-all.

Riepilogo e prospettive: una base per l'intelligenza artificiale Exascale

Il successo del centro di supercalcolo conMQM9790-NS2Fha accelerato la propria tabella di marcia verso capacità di intelligenza artificiale exascale. Stanno ora pianificando una seconda fase che raddoppierà il numero di GPU portandolo a 4.096 utilizzandone di aggiuntiveMQM9790-NS2F OSFP NDR a 64 porte da 400 Gb/spassa a una topologia ad albero grasso a tre livelli. Le funzionalità di telemetria e gestione fuori banda dello switch hanno inoltre consentito di evitare la congestione in modo predittivo, riducendo i costi operativi per il team di rete.

Per gli architetti di rete e i responsabili IT che valutano i tessuti di prossima generazione, ilNVIDIA Mellanox MQM9790-NS2Frappresenta una soluzione matura e collaudata in produzione. Che tu stia creando un nuovo cluster di ricerca sull'intelligenza artificiale o aggiornando una struttura HPC esistente, questo switch offre le basi a bassa latenza e larghezza di banda elevata necessarie per i moderni carichi di lavoro paralleli.