Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Pratica applicativa dello switch InfiniBand

January 6, 2026

Sfondo e sfide: il collo di bottiglia della rete nell'informatica moderna

Nella corsa alla scoperta scientifica e alle scoperte dell'IA, le capacità di calcolo di un'istituzione di ricerca leader non erano soffocate dalla mancanza di potenza di elaborazione grezza,ma dal loro tessuto di reteLa loro infrastruttura HDR InfiniBand esistente, sebbene capace, stava lottando per tenere il passo con il massiccio,le richieste di comunicazione sincronizzate dei loro cluster NVIDIA DGX di nuova distribuzione e dei carichi di lavoro HPC tradizionali;I ricercatori hanno dovuto affrontare notevoli ritardi nei tempi di completamento del lavoro, con la latenza della rete e la congestione durante i modelli di comunicazione all-to-all che sono diventati il principale collo di bottiglia.

La sfida era duplice: in primo luogo, ridurre drasticamente la latenza per le operazioni di Remote Direct Memory Access (RDMA) critiche per le simulazioni HPC basate su MPI.tessuto non bloccante per lavori di formazione dell'IA che richiedevano una costante sincronizzazione dei parametri su centinaia di GPUL'istituzione aveva bisogno di una soluzione a prova di futuro che potesse gestire le velocità NDR 400Gb/s pur essendo pienamentecompatibilecon il loro ecosistema esistente, garantendo un percorso di aggiornamento conveniente senza una revisione completa.

Soluzione e implementazione: implementazione del tessuto 920-9B210-00FN-0D0

Dopo un'approfondita valutazione, l'istituzione ha selezionatoNVIDIA Mellanox 920-9B210-00FN-0D0La soluzione si è concentrata sulla distribuzione di più tipi di tessuti.920-9B210-00FN-0D0 MQM9790-NS2F 400 Gb/s NDRgli switch per formare uno strato spinale ad alta larghezza di banda e bassa latenza, che collega tutti i nodi di calcolo e di archiviazione.

Il deployment è stato strutturato come una topologia a due livelli di fat-tree ibrida per massimizzare la larghezza di banda bisezionale e ridurre al minimo il numero di hop.

Fabbricazione a partire da:Uno strato di spina dorsale costruito interamente con920-9B210-00FN-0D0switch, che forniscono la backbone NDR 400 Gb/s.
Integrazione senza soluzione di continuità:Sfruttando la retrocompatibilità dello switch, sono stati collegati gli switch HDR e i NIC esistenti, proteggendo gli investimenti precedenti consentendo aggiornamenti incrementali dei nodi a NDR.
Gestione avanzata:L'intero tessuto, compreso il nuovo920-9B210-00FN-0D0 InfiniBand switch OPNL'intero sistema di monitoraggio è stato gestito sotto un unico vetro utilizzando NVIDIA UFM®, consentendo una telemetria delle prestazioni precisa, il provisioning automatico del tessuto e il rapido isolamento dei guasti.
Validazione:Il team informatico ha consultato rigorosamente il funzionario920-9B210-00FN-0D0 scheda dati- eSpecificitàper convalidare la portata dei cavi, la potenza e i requisiti di raffreddamento nel proprio data center, garantendo prestazioni ottimali.

Questa architettura ha stabilito un sistema unificato920-9B210-00FN-0D0 InfiniBand switch OPN soluzione, servendo sia i classici carichi di lavoro HPC dell'istituzione che quelli emergenti di IA su una rete unica e potente.

Effetti e benefici: miglioramenti quantificabili delle prestazioni ed efficienza

L'impatto della diffusione del920-9B210-00FN-0D0La loro attività è stata immediatamente misurabile e trasformabile attraverso le molteplici dimensioni delle loro operazioni.

Metrica	Prima di essere inviati	Dopo il 920-9B210-00FN-0D0 Impiego
La latenza media MPI (viaggio di andata e ritorno)	~ 0,7 microsecondi	~0,5 microsecondi
Tempo di completamento del lavoro di addestramento dell'IA (modello ampio)	5.2 giorni	3.8 giorni(riduzione del 27%)
Utilizzo dei tessuti durante il picco di tutti-a-tutti	Spesso supera l'85%, causando congestioni	Stabile al di sotto del 60% alle velocità NDR
Funzioni amministrative (riconfigurazione del fabbricato)	Processi manuali che richiedono molto tempo	Automatizzato tramite integrazione UFM®

Il vantaggio più significativo è stato la drammatica riduzione del tempo di esecuzione delle applicazioni.La frequenza del segnale MPI è aumentata del 20 al 30% grazie a una latenza più bassa e più costante.Per i team di IA, le prestazioni quasi teoriche di RDMA sul nuovo tessuto significavano che le risorse della GPU erano completamente sature di calcolo, non bloccate in attesa di trasferimenti di rete.Nel valutare il totale920-9B210-00FN-0D0 prezzoL'accelerazione dei risultati della ricerca che ne è risultata ha prodotto un ROI convincente, di gran lunga superiore alle spese di capitale iniziali.

Conclusioni e prospettive: un progetto per infrastrutture a prova di futuro

L'efficacia dell'applicazione delNVIDIA Mellanox 920-9B210-00FN-0D0In questo contesto di ricerca, il progetto è un potente modello per ogni organizzazione che si trova ad affrontare sfide di interconnessione simili.Esso dimostra che l'investimento in un tessuto di rete all'avanguardia non è un costo accessorio ma un moltiplicatore strategico per gli investimenti informatici.

La partecipazione dell'istituzione dimostra che la920-9B210-00FN-0D0è più di un semplice switch; è una piattaforma che consente la convergenza. Unisce perfettamente carichi di lavoro HPC e AI basati su RDMA in una singola rete ultra-responsiva,semplificazione delle operazioni e accelerazione della scopertaCome questa tecnologia diventa più ampiamente disponibileper la vendita, stabilisce un nuovo standard per ciò che è possibile nel cluster di alte prestazioni.

Guardando al futuro, la scalabilità e le prestazioni intrinseche del tessuto NDR 400Gb/s consentono all'istituzione di essere ben posizionata per integrare risorse di calcolo ancora più potenti in futuro.Il...920-9B210-00FN-0D0ha effettivamente eliminato la rete come collo di bottiglia, permettendo ai ricercatori di concentrarsi esclusivamente sui limiti dei loro algoritmi e della loro immaginazione.