Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 White Paper Tecnico: Ottimizzazione dell'Interconnessione a Bassa Latenza

April 14, 2026

Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 White Paper Tecnico: Ottimizzazione dell'Interconnessione a Bassa Latenza

Questo white paper tecnico si rivolge agli architetti di rete, agli ingegneri pre-vendita e ai responsabili delle operazioni, fornendo una soluzione completa incentrata sulMellanox 920-9B110-00FH-0D0InfiniBand switch. Esaminiamo come questa piattaforma consente latenze deterministiche e ultra-basse per carichi di lavoro ad alta intensità di RDMA in ambienti di cluster HPC e AI.

1. Analisi del contesto e dei requisiti del progetto

I moderni framework di formazione dell'IA (PyTorch DDP, DeepSpeed, Megatron) e i codici di simulazione HPC (CFD, modellazione del tempo, dinamica molecolare) si basano fortemente su primitivi di comunicazione collettiva.I tessuti Ethernet tradizionali presentano tre problemi fondamentali: perdita di pacchetti a causa della congestione incast, latenza variabile da commutazione di archiviazione e inoltro e elevato sovraccarico della CPU da elaborazione di stack TCP / IP.Questi problemi causano tempi di inattività della GPU del 30-50% nell'addestramento distribuito su larga scala, che si traduce direttamente in tempi di soluzione più lunghi e costi operativi maggiori.

Il920-9B110-00FH-0D0La tecnologia InfiniBand, basata sull'hardware, offre RDMA, commutazione cut-through e controllo del flusso basato sul credito.I casi d'uso mirati includono laboratori di ricerca sull'IA che gestiscono 641,024 cluster GPU, centri HPC che richiedono latenza MPI sub-microsegondi e fornitori di cloud che costruiscono famiglie di istanze di IA in metallo nudo.

2. Progettazione complessiva dell'architettura di rete

La nostra architettura raccomandata utilizza una topologia a due livelli di fat-tree (folded Clos), che bilancia la larghezza di banda di bisezione, il costo e la scalabilità.con una capacità di accensione superiore a 50 W.

Livello Dispositivo Configurazione della porta Quantità (512 nodi)
Foglia 920-9B110-00FH-0D0 MQM8790-HS2F 40x HDR giù + 8x HDR su 16 unità
Colonna vertebrale NVIDIA Mellanox 920-9B110-00FH-0D0 40x HDR (solo verso il basso) 8 unità

Questa configurazione offre una larghezza di banda di bisezione completa di 200 Gb/s per nodo, prestazioni non bloccanti per i modelli di comunicazione all-to-all e latenza fino a 130 ns per salto (cut-through).920-9B110-00FH-0D0 InfiniBand switch OPN soluzionesupporta SKU standard e personalizzati, consentendo configurazioni di breakout flessibili (ad esempio, 4x 50Gb/s per porta HDR).

3. Ruolo e caratteristiche chiave del 920-9B110-00FH-0D0

Nell'ambito dell'architettura proposta, laNVIDIA Mellanox 920-9B110-00FH-0D0L'elemento di tessuto è l'elemento unificato tra i livelli di foglia e di spina dorsale.

  • RDMA basato su hardware:Bypassa interamente il kernel e la CPU, consentendo trasferimenti di memoria in memoria a velocità di linea con latenza <1μs.
  • Routing adattivo (AR):Ridirige dinamicamente i pacchetti in base alla congestione delle porte in tempo reale, distribuendo il traffico su tutti i percorsi disponibili senza riordinamento dei pacchetti.
  • Controllo della congestione:I meccanismi di notifica e di limitazione a livello hardware impediscono il blocco della testa della linea, come specificato nel920-9B110-00FH-0D0 scheda dati.
  • Telemetria acuta:I monitor hardware integrati forniscono occupazione del buffer, latenza e contatori di errore per la gestione proattiva.

Gli ingegneri che valutano gli appalti dovrebbero rivedere la920-9B110-00FH-0D0 specifiche, che confermano il supporto di fino a 40 porte HDR (200Gb/s ciascuna) in un fattore di forma 1U, con un consumo di energia inferiore a 300W.920-9B110-00FH-0D0 compatibileL'ecosistema comprende tutti i moduli ottici HDR standard (QSFP56) e i cavi di rame passivi fino a 5 metri.

4. Raccomandazioni per la distribuzione e la scalabilità

Per la distribuzione iniziale, raccomandiamo un approccio graduale:

  • Fase 1 (pilota ¢ 32 nodi):Implementare 1 switch a foglia (920-9B110-00FH-0D0) in configurazione a singolo switch. Validare le prestazioni RDMA utilizzando i benchmark ib_write_bw e MPI.920-9B110-00FH-0D0 in venditaLo stato di avanzamento per garantire che i tempi di realizzazione siano in linea con le tappe del progetto.
  • Fase 2 (produzione 128 nodi):Implementare l'albero di grasso completo con 4 switch a foglia + 2 a spina dorsale. Abilitare il routing adattivo e il controllo della congestione. Eseguire test di stress estesi con test NCCL (all-reduce, all-gather).
  • Fase 3 (scale-out 512+ nodi):Espandi a 16 switch a foglia + 8 switch di spina dorsale.920-9B110-00FH-0D0 prezzoper porta rispetto all'aggiunta di più switch rispetto ai modelli radix più alti.

Quando si calcola il costo totale di proprietà, si noti che il920-9B110-00FH-0D0elimina la necessità di switch TOR separati, la complessità della configurazione ECN (a differenza di RoCE) e le licenze proprietarie di gestione della congestione, tutte incluse nativamente in InfiniBand.

5. Operazioni, monitoraggio, risoluzione dei problemi e ottimizzazione

Gestione della produzione diNVIDIA Mellanox 920-9B110-00FH-0D0Fabrics si basa su due strumenti primari: OpenSM (subnet manager) per la raccolta di tessuti di base e NVIDIA UFM (Unified Fabric Manager) per la telemetria e l'automazione su scala aziendale.

  • Controlli giornalieri:Utilizzare ≪ibnetdiscover≫ per verificare la topologia del tessuto, ≪ibstat≫ per monitorare lo stato della porta e ≪perfquery≫ per tracciare i contatori di errori.
  • Accordamento delle prestazioni:Impostare il routing adattivo su "statico" per la latenza deterministica o "dinamico" per il throughput massimo.
  • Risoluzione di problemi comuni:Gli errori CRC di collegamento indicano in genere problemi di integrità del cavo/segnale920-9B110-00FH-0D0 scheda datiPer i tessuti di grandi dimensioni, i timeout del subnet manager richiedono spesso l'adeguamento del `max_hop_count`.
  • Pianificazione della capacità:Sfruttare l'analisi predittiva di UFM per prevedere l'utilizzo dei porti e identificare i punti critici prima che abbiano un impatto sui posti di lavoro.920-9B110-00FH-0D0 InfiniBand switch OPNPermette di adattare l'ottica flessibile aggiornabile a campo alle mutevoli esigenze di larghezza di banda.

Per le organizzazioni che valutano più fornitori, confrontare920-9B110-00FH-0D0 prezzoLa stack integrata verticalmente di InfiniBand riduce il tempo di debuggo inter-team di circa il 40%.

6. Riassunto e valutazione del valore

IlMellanox 920-9B110-00FH-0D0fornisce una base pronta per la produzione per i cluster RDMA/HPC/AI che richiedono interconnessioni deterministiche a bassa latenza.

  • Performance:Fino a 200Gb/s per porta con latenza di commutazione inferiore a 130ns, consentendo la scalabilità della GPU lineare fino a migliaia di nodi.
  • Efficienza operativa:Gli offload hardware nativi eliminano l'intervento della CPU per l'I/O di rete, liberando i core per il calcolo.
  • A prova di futuro:Compattibilità retrospettiva con EDR (100Gb/s) e compatibilità retrospettiva con NDR (400Gb/s) attraverso la traduzione della velocità delle porte.
  • Costo totale di proprietà:Quando si calcola920-9B110-00FH-0D0 prezzorispetto alle alternative Ethernet, includono il risparmio da ridotto tempo di inattività della GPU (15-25% di recupero tipico) e l'eliminazione delle licenze proprietarie di controllo della congestione.

Gli architetti sono incoraggiati a scaricare l'intero920-9B110-00FH-0D0 scheda datie riferimento al funzionario920-9B110-00FH-0D0 specificheper le matrici di cablaggio e il bilancio di potenza.920-9B110-00FH-0D0 in venditaL'obiettivo è quello di garantire la disponibilità attraverso la rete partner di NVIDIA e richiedere un laboratorio di convalida per test di topologia personalizzati.