Conclusioni di rete nei cluster di formazione sull'IA: soluzioni fornite da Mellanox
September 23, 2025
Comunicato stampa:Poiché i modelli di intelligenza artificiale crescono esponenzialmente in complessità, la domanda di calcoli scalabili ad alte prestazioni non è mai stata così alta.Un elemento critico, ma spesso trascurato, è laRete di IAMellanox, pioniere nelle soluzioni di interconnessione ad alte prestazioni, affronta questa precisa sfida con la sua tecnologia all'avanguardiainterconnessione a bassa latenzaLa tecnologia, progettata per eliminare le strozzature e massimizzare l'efficienza di ogniCluster GPU.
L'intelligenza artificiale moderna, in particolare per i modelli di linguaggio di grandi dimensioni (LLM) e la visione computerizzata, si basa sull'elaborazione parallela su una vasta gamma di GPU.le strozzature legate alla rete possono far crollare l'utilizzo della GPU dal potenziale 95% al 40%Questa inefficienza si traduce direttamente in tempi di formazione prolungati, aumento del consumo di energia e costi operativi significativamente più elevati, rendendo ottimizzate le attività di formazione.Rete di IANon solo un vantaggio, ma una necessità.
L'approccio di Mellanox è olistico, fornendo un'infrastruttura completa progettata per i carichi di lavoro di IA.Il nucleo di questa soluzione è la famiglia Spectrum di switch Ethernet e la serie ConnectX di Smart Network Interface Card (NIC)Questi componenti sono specificamente progettati per funzionare all'unisono, creando una condotta di dati senza attriti tra i server.
Tra i principali differenziatori tecnologici figurano:
- Informatica in rete:Offloads le attività di elaborazione dei dati dalla CPU al NIC, riducendo drasticamente la latenza.
- Routing adattivo e RoCE:Garantisce una selezione ottimale del percorso dei dati e sfrutta RDMA su Ethernet convergente (RoCE) per un'efficienza,interconnessione a bassa latenzacomunicazione.
- Tessuto gerarchico scalabile:Supporta architetture Clos (leaf-spine) non bloccanti che possono scalare a decine di migliaia di porte senza degrado delle prestazioni.
L'efficacia della soluzione di Mellanox e' stata dimostrata in applicazioni reali.La tabella seguente illustra un confronto delle prestazioni tra una rete TCP/IP standard e un tessuto abilitato a Mellanox RoCE in un ambiente di formazione AI su larga scala.
| Metrica | Fabbrica TCP/IP standard | Tessuto Mellanox RoCE | Miglioramento |
|---|---|---|---|
| Tempo di completamento del lavoro (1024 GPU) | 48 ore | 29 ore | ~40% più veloce |
| Utilizzazione media della GPU | 45% | 90% | 2 volte più alto |
| La latenza internodo | > 100 μs | < 1,5 μs | ~99% inferiore |
Per le aziende e gli istituti di ricerca che investono milioni in risorse di calcolo GPU, la rete è il sistema nervoso centrale che determina il ROI complessivo.Rete di IALe soluzioni forniscono lainterconnessione a bassa latenzarichiesto per garantire che un multi-nodoCluster GPUIl progetto è stato realizzato con l'obiettivo di sviluppare un sistema di analisi e di analisi dell'intelligenza artificiale, in grado di fornire informazioni più dettagliate e più complete sui problemi dell'intelligenza artificiale.

