Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 in azione: ottimizzazione delle interconnessioni a bassa latenza per cluster RDMA/HPC/AI

April 14, 2026

Nell'era dell'addestramento di modelli AI su larga scala e dell'HPC exascale, la latenza di rete è emersa come il singolo collo di bottiglia più critico che limita la scalabilità lineare dei cluster. Affrontando questa sfida di petto, lo switch Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 InfiniBand sta trasformando il modo in cui gli istituti di ricerca e i laboratori AI aziendali progettano i loro fabric ad alte prestazioni. Questo articolo esamina uno scenario di distribuzione tipico in cui il notifica di congestione basata su hardware del 920-9B110-00FH-0D0 offre una latenza deterministica e ultra-bassa per carichi di lavoro intensivi di RDMA.

Contesto e Sfida: Il Muro della Comunicazione dei Cluster AI

Una struttura di ricerca AI di medie dimensioni stava lottando con il tempo di inattività delle GPU durante l'addestramento distribuito su 64 nodi. Il loro attuale fabric Ethernet da 100 Gb soffriva di congestione incast, causando operazioni di comunicazione collettiva (all-reduce, all-gather) che richiedevano fino al 40% del tempo totale di addestramento. Gli architetti di rete necessitavano di una soluzione senza perdite e ad alta produttività, in grado di scalare a 200 Gb/s per porta mantenendo una latenza inferiore al microsecondo. Dopo aver valutato le opzioni disponibili, il team ha selezionato il 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR come blocco fondamentale per la loro nuova topologia spine-leaf.

Soluzione e Implementazione: Implementazione del Fabric InfiniBand

L'implementazione è stata incentrata sugli switch NVIDIA Mellanox 920-9B110-00FH-0D0 configurati in un'architettura fat-tree a due livelli. Ogni nodo di calcolo era dotato di adattatori HDR ConnectX-6, collegati agli switch leaf tramite cavi in rame passivi. I passaggi chiave di implementazione includevano:

Alternativa RDMA su Ethernet Convergente (RoCE): InfiniBand nativo con controllo della congestione basato su hardware ha eliminato completamente le perdite di pacchetti.
Routing adattivo: La soluzione 920-9B110-00FH-0D0 InfiniBand switch OPN ha consentito il bilanciamento dinamico del carico su più percorsi, prevenendo la formazione di hotspot.
Gestione del fabric: Utilizzo di Subnet Manager (OpenSM) con le specifiche 920-9B110-00FH-0D0 confermando il supporto fino a 2.000 nodi in un singolo fabric.

Prima dell'acquisto, gli ingegneri hanno esaminato la scheda tecnica 920-9B110-00FH-0D0 per convalidare la compatibilità con l'ottica esistente. L'ecosistema compatibili con 920-9B110-00FH-0D0 includeva tutti i principali assemblaggi di cavi HDR, semplificando la distinta base. Per quanto riguarda il budget, il prezzo del 920-9B110-00FH-0D0 si è rivelato competitivo rispetto agli switch HDR alternativi, e le unità erano prontamente disponibili ( 920-9B110-00FH-0D0 in vendita) tramite i partner di canale NVIDIA.

Risultati e Benefici: Guadagni di Prestazioni Misurabili

La telemetria post-implementazione ha rivelato miglioramenti drastici su tre metriche chiave:

Metrica	Prima (100GbE)	Dopo (920-9B110-00FH-0D0 HDR)	Miglioramento
Latenza media All-Reduce (64 nodi)	340µs	78µs	Riduzione del 77%
Tempo di inattività GPU (overhead di comunicazione)	38%	11%	Guadagno assoluto del 27%
Utilizzo effettivo della larghezza di banda del fabric	62%	94%	+32%

Oltre ai numeri grezzi, l' OPN dello switch InfiniBand 920-9B110-00FH-0D0 ha consentito al team di scalare da 64 a 256 nodi senza riprogettare il fabric. La latenza deterministica fornita dal controllo di flusso basato su crediti di InfiniBand si è rivelata essenziale per mantenere la coerenza dell'addestramento su centinaia di GPU. Gli ingegneri hanno anche sfruttato la notifica di congestione basata su hardware del 920-9B110-00FH-0D0 per identificare e correggere micro-burst in tempo reale.

Riepilogo e Prospettive: Il Futuro degli Interconnessi AI

L'implementazione convalida che NVIDIA Mellanox 920-9B110-00FH-0D0 funge da elemento fondamentale per i cluster AI e HPC di prossima generazione. Sostituendo i fabric Ethernet con perdite con InfiniBand senza perdite, le organizzazioni possono recuperare fino al 30% della potenza di calcolo delle GPU precedentemente sprecata in stalli di comunicazione. Per gli architetti che pianificano nuove infrastrutture AI, la scheda tecnica 920-9B110-00FH-0D0 fornisce indicazioni dettagliate su topologie che vanno dai piccoli cluster DGX alle implementazioni su scala supercomputing.

Man mano che i carichi di lavoro evolvono verso un parallelismo di modelli più ampio e densità di GPU più elevate, il 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR offre un chiaro percorso di aggiornamento ai futuri fabric da 400 Gb/s grazie al suo design retrocompatibile. Sia che si valuti il prezzo del 920-9B110-00FH-0D0 rispetto ai guadagni di efficienza operativa o si verifichino le opzioni di cablaggio compatibili con 920-9B110-00FH-0D0, questo switch InfiniBand offre un ROI misurabile per le organizzazioni basate sui dati.