Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 InfiniBand Switch Soluzione tecnica

April 15, 2026

Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 InfiniBand Switch Soluzione tecnica

1. Analisi del contesto e dei requisiti del progetto

I moderni cluster di formazione dell'IA e gli ambienti di elaborazione ad alte prestazioni (HPC) si trovano di fronte a una sfida di scalabilità comune: con l'aumento del numero di GPU e della densità di calcolo,I tessuti Ethernet tradizionali diventano il principale collo di bottiglia a causa delle spese generali TCP/IPPer i carichi di lavoro basati su RDMA (Remote Direct Memory Access), anche il jitter a livello di microsecondi può ridurre l'utilizzo effettivo della GPU del 30-40%.Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0Lo switch InfiniBand affronta direttamente queste sfide fornendo un tessuto deterministico senza perdite ottimizzato per le operazioni collettive, gli algoritmi all-reduce e le comunicazioni MPI ad alta frequenza.

I requisiti chiave per le reti AI/HPC di prossima generazione includono: latenza di commutazione sub-microsegonda, supporto per velocità NDR di 400Gb/s, elaborazione in rete basata su hardware (SHARP v2),e compatibilità con le infrastrutture HDR esistenti. il920-9B210-00FN-0D0soddisfa tutti questi criteri, offrendo al contempo la gestione e la telemetria di livello aziendale.

2. Progettazione complessiva dell'architettura di rete e sistema

L'architettura raccomandata si basa su una topologia a due strati di albero di grasso (spine-leaf),che fornisce larghezza di banda di bisezione completa e latenza deterministica per i modelli di comunicazione all-to-all tipici dell'addestramento distribuitoLo strato della colonna vertebrale è costituito daNVIDIA Mellanox 920-9B210-00FN-0D0switch, ognuno dei quali funziona come spina dorsale di un tessuto NDR; switch Leaf (ad esempio, serie QM9700) si collegano a nodi di calcolo tramite adattatori ConnectX-7 o BlueField-3,mentre i collegamenti ascendenti alla colonna vertebrale funzionano a velocità NDR di 400Gb/s.

Per le distribuzioni su larga scala superiori a 2.000 GPU, è possibile implementare un'architettura a tre livelli (core-aggregation-access), con la920-9B210-00FN-0D0 MQM9790-NS2F 400 Gb/s NDRQuesta progettazione garantisce la scalabilità lineare delle prestazioni e supporta l'espansione futura a NDR200 (800Gb/s) senza richiedere un aggiornamento del carrello elevatore.Il funzionario920-9B210-00FN-0D0 InfiniBand switch OPNsemplifica l'approvvigionamento su più siti e garantisce la coerenza del firmware su tutto il tessuto.

3. Ruolo e caratteristiche chiave del 920-9B210-00FN-0D0 nella soluzione

Il920-9B210-00FN-0D0serve come spina dorsale/elemento centrale ad alte prestazioni all'interno del tessuto InfiniBand. Le sue capacità chiave includono:

  • Densità di porta NDR di 400 Gb/s:Ciascuno920-9B210-00FN-0D0 MQM9790-NS2F 400 Gb/s NDRL'interruttore fornisce fino a 32 porte 400Gb/s, supportando sia i ricevitori di rame che quelli ottici per il cablaggio flessibile fino a 500 metri (single-mode).
  • Informatica in rete (SHARP v2):Le operazioni all-reduce accelerate dall'hardware riducono il tempo di comunicazione collettiva fino a 8 volte per i carichi di lavoro di addestramento dell'IA, migliorando direttamente l'utilizzo della GPU.
  • Routing adattivo e controllo della congestione:La selezione del percorso dinamico evita la formazione di hotspot e garantisce la latenza deterministica sotto i modelli di traffico incast.
  • Alternativa RDMA su Ethernet convergente (RoCE):A differenza di RoCE, InfiniBand nativo sul920-9B210-00FN-0D0non richiede alcuna configurazione PFC e offre prestazioni costanti anche al 95% di utilizzo del collegamento.

Gli ingegneri possono consultare il920-9B210-00FN-0D0 scheda dati- e920-9B210-00FN-0D0 specificheper potenza dettagliata (tipico 350W), calore e dati di latenza (dilatamento di commutazione inferiore a 200ns).920-9B210-00FN-0D0 compatibilecon tutti i principali endpoint NVIDIA InfiniBand e ottiche NDR di terze parti.

4. Raccomandazioni per la distribuzione e la scalabilità (esempi di topologia)

Cluster piccolo (128-256 GPU):Spina dorsale singola di 2x920-9B210-00FN-0D0I commutatori, ciascuno connesso a 8-16 commutatori a foglia, forniscono larghezza di banda e ridondanza.Cluster medio (512-1024 GPU):Questa topologia garantisce che nessun singolo collegamento superi l'80% di utilizzo durante i picchi di traffico.Cluster di grandi dimensioni (2048+ GPU):Strato centrale di 8xNVIDIA Mellanox 920-9B210-00FN-0D0tutte le interconnessioni a 400 Gb/s NDR, con disponibilità opzionale NDR200.

Per le organizzazioni che valutano i costi, la920-9B210-00FN-0D0 prezzoL'unità è disponibile come un'unità per la distribuzione e la distribuzione di servizi di telecomunicazione.920-9B210-00FN-0D0 in venditaattraverso la rete di distribuzione autorizzata di NVIDIA, con tempi di consegna tipici di 4-6 settimane.

5. Operazioni, monitoraggio, risoluzione dei problemi e ottimizzazione

La gestione è centralizzata tramite NVIDIA Unified Fabric Manager (UFM), che fornisce telemetria in tempo reale, analisi predittiva dei guasti e bonifica automatizzata.920-9B210-00FN-0D0 InfiniBand switch OPN soluzioneincludono:

  • Linee di riferimento di prestazione:Utilizzare le mappe di calore di latenza di UFM per identificare i micro-raffichi.920-9B210-00FN-0D0 specificheconfermare i contatori hardware per i marchi ECN e l'occupazione del buffer.
  • Gestione del firmware:Mantenere tutte le unità sullo stesso ramo firmware NDR.920-9B210-00FN-0D0 scheda datiinclude una matrice di compatibilità per ConnectX-7 e BlueField-3.
  • Scenari di errore:Le sorgenti di alimentazione ridondanti e i moduli dei ventilatori consentono una ridondanza di N + 1.
  • Suggerimenti di ottimizzazione:Abilitare il routing adattivo su tutte le porte vertebrali; disabilitare i fotogrammi di pausa globale; configurare SHARP per tutti i carichi di lavoro ad alta intensità; utilizzare il920-9B210-00FN-0D0 InfiniBand switch OPNIdentificatori per mappare le porte fisiche ai ruoli logici.

6. Riassunto e valutazione del valore

IlMellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0rappresenta un elemento fondamentale per i tessuti AI e HPC ad alte prestazioni. Fornendo 400 Gb/s di larghezza di banda NDR, latenza di commutazione sub-microsegonda e SHARP v2 in-network computing,elimina i colli di bottiglia della rete che in genere limitano la scalabilità della GPU. il920-9B210-00FN-0D0Non è solo un cambiamento, è un cambiamento completo.920-9B210-00FN-0D0 InfiniBand switch OPN soluzioneCiò include la piena compatibilità con le infrastrutture HDR esistenti, la gestione di livello aziendale attraverso UFM e un percorso di migrazione chiaro verso le future velocità NDR200.Per architetti di rete e responsabili IT che cercano di ottimizzare le prestazioni di interconnessione di cluster RDMA/HPC/AI, questo switch offre un ROI misurabile attraverso un maggiore utilizzo della GPU, tempi di completamento dei lavori ridotti e costi operativi inferiori.

Riferimento delle specifiche chiave

Parametro Valore
Modello NVIDIA Mellanox 920-9B210-00FN-0D0
Tasso di dati 400Gb/s NDR (per porta)
OPN di base 920-9B210-00FN-0D0 InfiniBand switch OPN
Configurazione completa 920-9B210-00FN-0D0 MQM9790-NS2F 400 Gb/s NDR
Commutazione di latenza < 200 ns
Consumo di energia ~ 350 W (tipico)