Conclusioni di rete nei cluster di formazione sull'IA: soluzioni fornite da Mellanox

September 23, 2025

ultime notizie sull'azienda Conclusioni di rete nei cluster di formazione sull'IA: soluzioni fornite da Mellanox
Sbloccare il potenziale dell'IA: Mellanox affronta i colli di bottiglia della rete nei cluster GPU su larga scala

Comunicato stampa:Poiché i modelli di intelligenza artificiale crescono esponenzialmente in complessità, la domanda di calcoli scalabili ad alte prestazioni non è mai stata così alta.Un elemento critico, ma spesso trascurato, è laRete di IAMellanox, pioniere nelle soluzioni di interconnessione ad alte prestazioni, affronta questa precisa sfida con la sua tecnologia all'avanguardiainterconnessione a bassa latenzaLa tecnologia, progettata per eliminare le strozzature e massimizzare l'efficienza di ogniCluster GPU.

La crescente sfida dei colli di bottiglia della rete dell'IA

L'intelligenza artificiale moderna, in particolare per i modelli di linguaggio di grandi dimensioni (LLM) e la visione computerizzata, si basa sull'elaborazione parallela su una vasta gamma di GPU.le strozzature legate alla rete possono far crollare l'utilizzo della GPU dal potenziale 95% al 40%Questa inefficienza si traduce direttamente in tempi di formazione prolungati, aumento del consumo di energia e costi operativi significativamente più elevati, rendendo ottimizzate le attività di formazione.Rete di IANon solo un vantaggio, ma una necessità.

Soluzione di rete di intelligenza artificiale end-to-end di Mellanox

L'approccio di Mellanox è olistico, fornendo un'infrastruttura completa progettata per i carichi di lavoro di IA.Il nucleo di questa soluzione è la famiglia Spectrum di switch Ethernet e la serie ConnectX di Smart Network Interface Card (NIC)Questi componenti sono specificamente progettati per funzionare all'unisono, creando una condotta di dati senza attriti tra i server.

Tra i principali differenziatori tecnologici figurano:

  • Informatica in rete:Offloads le attività di elaborazione dei dati dalla CPU al NIC, riducendo drasticamente la latenza.
  • Routing adattivo e RoCE:Garantisce una selezione ottimale del percorso dei dati e sfrutta RDMA su Ethernet convergente (RoCE) per un'efficienza,interconnessione a bassa latenzacomunicazione.
  • Tessuto gerarchico scalabile:Supporta architetture Clos (leaf-spine) non bloccanti che possono scalare a decine di migliaia di porte senza degrado delle prestazioni.
Guadagni di prestazione quantificabili per i carichi di lavoro dell'IA

L'efficacia della soluzione di Mellanox e' stata dimostrata in applicazioni reali.La tabella seguente illustra un confronto delle prestazioni tra una rete TCP/IP standard e un tessuto abilitato a Mellanox RoCE in un ambiente di formazione AI su larga scala.

Metrica Fabbrica TCP/IP standard Tessuto Mellanox RoCE Miglioramento
Tempo di completamento del lavoro (1024 GPU) 48 ore 29 ore ~40% più veloce
Utilizzazione media della GPU 45% 90% 2 volte più alto
La latenza internodo > 100 μs < 1,5 μs ~99% inferiore
Conclusione e valore strategico

Per le aziende e gli istituti di ricerca che investono milioni in risorse di calcolo GPU, la rete è il sistema nervoso centrale che determina il ROI complessivo.Rete di IALe soluzioni forniscono lainterconnessione a bassa latenzarichiesto per garantire che un multi-nodoCluster GPUIl progetto è stato realizzato con l'obiettivo di sviluppare un sistema di analisi e di analisi dell'intelligenza artificiale, in grado di fornire informazioni più dettagliate e più complete sui problemi dell'intelligenza artificiale.