Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 White Paper Tecnico: Ottimizzazione dell'Interconnessione a Bassa Latenza
April 14, 2026
Questo white paper tecnico si rivolge agli architetti di rete, agli ingegneri pre-vendita e ai responsabili delle operazioni, fornendo una soluzione completa incentrata sulMellanox 920-9B110-00FH-0D0InfiniBand switch. Esaminiamo come questa piattaforma consente latenze deterministiche e ultra-basse per carichi di lavoro ad alta intensità di RDMA in ambienti di cluster HPC e AI.
I moderni framework di formazione dell'IA (PyTorch DDP, DeepSpeed, Megatron) e i codici di simulazione HPC (CFD, modellazione del tempo, dinamica molecolare) si basano fortemente su primitivi di comunicazione collettiva.I tessuti Ethernet tradizionali presentano tre problemi fondamentali: perdita di pacchetti a causa della congestione incast, latenza variabile da commutazione di archiviazione e inoltro e elevato sovraccarico della CPU da elaborazione di stack TCP / IP.Questi problemi causano tempi di inattività della GPU del 30-50% nell'addestramento distribuito su larga scala, che si traduce direttamente in tempi di soluzione più lunghi e costi operativi maggiori.
Il920-9B110-00FH-0D0La tecnologia InfiniBand, basata sull'hardware, offre RDMA, commutazione cut-through e controllo del flusso basato sul credito.I casi d'uso mirati includono laboratori di ricerca sull'IA che gestiscono 641,024 cluster GPU, centri HPC che richiedono latenza MPI sub-microsegondi e fornitori di cloud che costruiscono famiglie di istanze di IA in metallo nudo.
La nostra architettura raccomandata utilizza una topologia a due livelli di fat-tree (folded Clos), che bilancia la larghezza di banda di bisezione, il costo e la scalabilità.con una capacità di accensione superiore a 50 W.
| Livello | Dispositivo | Configurazione della porta | Quantità (512 nodi) |
|---|---|---|---|
| Foglia | 920-9B110-00FH-0D0 MQM8790-HS2F | 40x HDR giù + 8x HDR su | 16 unità |
| Colonna vertebrale | NVIDIA Mellanox 920-9B110-00FH-0D0 | 40x HDR (solo verso il basso) | 8 unità |
Questa configurazione offre una larghezza di banda di bisezione completa di 200 Gb/s per nodo, prestazioni non bloccanti per i modelli di comunicazione all-to-all e latenza fino a 130 ns per salto (cut-through).920-9B110-00FH-0D0 InfiniBand switch OPN soluzionesupporta SKU standard e personalizzati, consentendo configurazioni di breakout flessibili (ad esempio, 4x 50Gb/s per porta HDR).
Nell'ambito dell'architettura proposta, laNVIDIA Mellanox 920-9B110-00FH-0D0L'elemento di tessuto è l'elemento unificato tra i livelli di foglia e di spina dorsale.
- RDMA basato su hardware:Bypassa interamente il kernel e la CPU, consentendo trasferimenti di memoria in memoria a velocità di linea con latenza <1μs.
- Routing adattivo (AR):Ridirige dinamicamente i pacchetti in base alla congestione delle porte in tempo reale, distribuendo il traffico su tutti i percorsi disponibili senza riordinamento dei pacchetti.
- Controllo della congestione:I meccanismi di notifica e di limitazione a livello hardware impediscono il blocco della testa della linea, come specificato nel920-9B110-00FH-0D0 scheda dati.
- Telemetria acuta:I monitor hardware integrati forniscono occupazione del buffer, latenza e contatori di errore per la gestione proattiva.
Gli ingegneri che valutano gli appalti dovrebbero rivedere la920-9B110-00FH-0D0 specifiche, che confermano il supporto di fino a 40 porte HDR (200Gb/s ciascuna) in un fattore di forma 1U, con un consumo di energia inferiore a 300W.920-9B110-00FH-0D0 compatibileL'ecosistema comprende tutti i moduli ottici HDR standard (QSFP56) e i cavi di rame passivi fino a 5 metri.
Per la distribuzione iniziale, raccomandiamo un approccio graduale:
- Fase 1 (pilota ¢ 32 nodi):Implementare 1 switch a foglia (920-9B110-00FH-0D0) in configurazione a singolo switch. Validare le prestazioni RDMA utilizzando i benchmark ib_write_bw e MPI.920-9B110-00FH-0D0 in venditaLo stato di avanzamento per garantire che i tempi di realizzazione siano in linea con le tappe del progetto.
- Fase 2 (produzione 128 nodi):Implementare l'albero di grasso completo con 4 switch a foglia + 2 a spina dorsale. Abilitare il routing adattivo e il controllo della congestione. Eseguire test di stress estesi con test NCCL (all-reduce, all-gather).
- Fase 3 (scale-out 512+ nodi):Espandi a 16 switch a foglia + 8 switch di spina dorsale.920-9B110-00FH-0D0 prezzoper porta rispetto all'aggiunta di più switch rispetto ai modelli radix più alti.
Quando si calcola il costo totale di proprietà, si noti che il920-9B110-00FH-0D0elimina la necessità di switch TOR separati, la complessità della configurazione ECN (a differenza di RoCE) e le licenze proprietarie di gestione della congestione, tutte incluse nativamente in InfiniBand.
Gestione della produzione diNVIDIA Mellanox 920-9B110-00FH-0D0Fabrics si basa su due strumenti primari: OpenSM (subnet manager) per la raccolta di tessuti di base e NVIDIA UFM (Unified Fabric Manager) per la telemetria e l'automazione su scala aziendale.
- Controlli giornalieri:Utilizzare ≪ibnetdiscover≫ per verificare la topologia del tessuto, ≪ibstat≫ per monitorare lo stato della porta e ≪perfquery≫ per tracciare i contatori di errori.
- Accordamento delle prestazioni:Impostare il routing adattivo su "statico" per la latenza deterministica o "dinamico" per il throughput massimo.
- Risoluzione di problemi comuni:Gli errori CRC di collegamento indicano in genere problemi di integrità del cavo/segnale920-9B110-00FH-0D0 scheda datiPer i tessuti di grandi dimensioni, i timeout del subnet manager richiedono spesso l'adeguamento del `max_hop_count`.
- Pianificazione della capacità:Sfruttare l'analisi predittiva di UFM per prevedere l'utilizzo dei porti e identificare i punti critici prima che abbiano un impatto sui posti di lavoro.920-9B110-00FH-0D0 InfiniBand switch OPNPermette di adattare l'ottica flessibile aggiornabile a campo alle mutevoli esigenze di larghezza di banda.
Per le organizzazioni che valutano più fornitori, confrontare920-9B110-00FH-0D0 prezzoLa stack integrata verticalmente di InfiniBand riduce il tempo di debuggo inter-team di circa il 40%.
IlMellanox 920-9B110-00FH-0D0fornisce una base pronta per la produzione per i cluster RDMA/HPC/AI che richiedono interconnessioni deterministiche a bassa latenza.
- Performance:Fino a 200Gb/s per porta con latenza di commutazione inferiore a 130ns, consentendo la scalabilità della GPU lineare fino a migliaia di nodi.
- Efficienza operativa:Gli offload hardware nativi eliminano l'intervento della CPU per l'I/O di rete, liberando i core per il calcolo.
- A prova di futuro:Compattibilità retrospettiva con EDR (100Gb/s) e compatibilità retrospettiva con NDR (400Gb/s) attraverso la traduzione della velocità delle porte.
- Costo totale di proprietà:Quando si calcola920-9B110-00FH-0D0 prezzorispetto alle alternative Ethernet, includono il risparmio da ridotto tempo di inattività della GPU (15-25% di recupero tipico) e l'eliminazione delle licenze proprietarie di controllo della congestione.
Gli architetti sono incoraggiati a scaricare l'intero920-9B110-00FH-0D0 scheda datie riferimento al funzionario920-9B110-00FH-0D0 specificheper le matrici di cablaggio e il bilancio di potenza.920-9B110-00FH-0D0 in venditaL'obiettivo è quello di garantire la disponibilità attraverso la rete partner di NVIDIA e richiedere un laboratorio di convalida per test di topologia personalizzati.

