NVIDIA Mellanox MQM8790-HS2F in azione: ottimizzazione dell'interconnessione a bassa latenza per cluster RDMA/HPC/AI

April 10, 2026

ultime notizie sull'azienda NVIDIA Mellanox MQM8790-HS2F in azione: ottimizzazione dell'interconnessione a bassa latenza per cluster RDMA/HPC/AI
Sfida e sfide: quando la rete diventa il collo di bottiglia

Un'organizzazione di ricerca sull'IA in rapida crescita stava affrontando un punto doloroso familiare: il loro cluster di 200+ GPU, utilizzato per l'addestramento di grandi modelli di linguaggio e simulazioni di dinamica molecolare,Stava vivendo tempi di completamento del lavoro imprevedibiliNonostante i potenti nodi di calcolo, l'esistente tessuto Ethernet a 100 Gb/s ha sofferto di picchi di latenza, cadute di pacchetti sotto i modelli incast,e elevato sovraccarico della CPU a causa del tradizionale trattamento stack TCP/IPIl team aveva bisogno di una soluzione che potesse fornire una latenza costante di sotto-microsegondi, supportare completamente RDMA per GPU Direct e scalare senza aggiornamenti a carrello elevatore.hanno selezionato il迈络思 ((NVIDIA Mellanox) MQM8790-HS2Fcome pilastro fondamentale per il loro tessuto di cluster di prossima generazione.

Soluzione e implementazione: integrazione dell'interruttore MQM8790-HS2F InfiniBand

L'organizzazione ha utilizzato ilMQM8790-HS2F InfiniBand switchin una topologia a due livelli di fat-tree, connesso 128 nodi di calcolo (ciascuno dotato di adattatori NVIDIA ConnectX-6 HDR) e 4 nodi di archiviazione.NVIDIA Mellanox MQM8790-HS2FL'implementazione ha sfruttato la capacità di commutazione non bloccante di 16 Tb/s, sufficiente a sostituire due switch Ethernet legacy riducendo la complessità del cablaggio.MQM8790-HS2F 200Gb/s HDR 40 porte QSFP56supporto nativo per RDMA e GPUDirect, che consente l'accesso diretto alla memoria tra GPU su server diversi senza intervento della CPU.

I principali dettagli di attuazione includono:

  • Routing adattivo per bilanciare automaticamente il traffico su più percorsi, eliminando i punti caldi.
  • SHARPv3 (Scalable Hierarchical Aggregation and Reduction Protocol) per la riduzione in rete, accelerando le operazioni All-Reduce fino a 2,5 volte.
  • Controllo della congestione a livello dello switch, prevenendo il blocco della testa di linea comune negli ambienti Ethernet a perdita.

Prima dell'acquisto, il team di ingegneri ha esaminato lafoglio dati MQM8790-HS2F- eLe specifiche MQM8790-HS2FL'obiettivo è quello di confermare la compatibilità con i cavi e i ricevitori Mellanox esistenti.MQM8790-HS2F compatibileL'ecosistema ‘compresi i cavi ottici HDR e quelli in rame ‘ha permesso loro di riutilizzare il 40% dei loro precedenti investimenti in interconnessioni, riducendo significativamente l'ostacolo all'aggiornamento.

Risultati e benefici: miglioramenti misurabili delle prestazioni ed efficienza

Dopo la migrazione verso laMQM8790-HS2FL'organizzazione ha documentato tre categorie di miglioramenti:

  • Riduzione della latenza:La latenza media del ping-pong MPI è scesa da 2,1 μs (Ethernet RoCE) a 0,82 μs, con la latenza di coda praticamente eliminata.
  • Trasmissione del lavoro:I lavori di formazione distribuiti (basati su NCCL) sono stati completati il 37% più velocemente a causa della riduzione dei costi di comunicazione e dell'accelerazione SHARPv3.
  • Discarico della CPU:RDMA su InfiniBand ha ridotto l'utilizzo della CPU per la rete da ~ 15% a meno del 2%, liberando i core per il calcolo.

In un benchmark di comunicazione all-to-all da 128 GPU, ilMQM8790-HS2F Soluzione di interruttore InfiniBandPer le simulazioni finanziarie eseguite dallo stesso team, la velocità di trasmissione è stata stimata a circa 1 GHz/s.la variabilità del lavoro è stata ridotta del 78%, consentendo SLA più rigorosi e tempi di esecuzione prevedibili.

Riassunto e prospettive: un investimento a prova di futuro

Questo impiego nel mondo reale dimostra che laMQM8790-HS2FLa combinazione di 200 Gb/s di throughput HDR, 40 porte ad alta densità,e l'informatica avanzata in rete trasforma l'economia dei cluster riducendo sia il tempo di completamento del lavoro che le spese generali operative. Per i dirigenti IT che valutanoMQM8790-HS2F prezzoIn questo caso, la Commissione ha concluso che il tasso di incremento del rendimento è basato sul solo miglioramento dell'efficienza di calcolo.

Poiché l'organizzazione prevede di raddoppiare il suo numero di GPU a 400+ nodi, hanno già stanziato per ulterioriMQM8790-HS2F in venditaLa capacità dello switch di miscelare le velocità HDR ed EDR garantisce un percorso di migrazione fluido man mano che gli adattatori più vecchi vengono gradualmente sostituiti.Per gli architetti che progettano cluster RDMA di prossima generazione, ilNVIDIA Mellanox MQM8790-HS2Foffre una spina dorsale comprovata e pronta per la produzione che si estende dalla ricerca di IA di dipartimento al supercomputing exascale.