Nous Research ha recentemente annunciato una nuova innovazione che potrebbe rivoluzionare l’addestramento dei modelli di intelligenza artificiale: DisTrO (Distributed Training Over-the-Internet). Questo ottimizzatore promette un aumento dell’efficienza fino a 10.000 volte rispetto ai metodi tradizionali, cambiando significativamente il panorama dell’IA.
DisTrO è un nuovo approccio per ridurre la quantità di dati che devono essere trasmessi tra diverse GPU durante l’addestramento di modelli di IA. Tradizionalmente, l’addestramento di IA richiede una grande comunicazione tra GPU, il che implica alte velocità di rete e grandi cluster di hardware costoso. DisTrO riduce drasticamente la quantità di dati scambiati, facilitando l’addestramento di modelli potenti utilizzando connessioni Internet di livello consumer.
Secondo il documento tecnico di Nous Research, DisTrO ha mostrato un miglioramento dell’efficienza di 857 volte rispetto all’algoritmo di training All-Reduce e una riduzione significativa delle informazioni trasmesse durante l’addestramento (da 74,4 gigabyte a 86,8 megabyte). Questa ottimizzazione consente di addestrare modelli di IA su connessioni Internet molto più lente, rendendo possibile l’uso di risorse distribuite a livello globale.
Il modello DisTrO è stato testato con l’architettura Meta Llama 2 e ha mostrato prestazioni comparabili ai metodi tradizionali, nonostante una riduzione drammatica nella comunicazione tra GPU. Il team prevede di pubblicare ulteriori dettagli sui miglioramenti ottenuti e sulla capacità di DisTrO di mantenere alte prestazioni con una larghezza di banda significativamente ridotta.
Il vantaggio principale di DisTrO è la sua capacità di democratizzare l’addestramento dell’IA. Ora, anche piccoli ricercatori e istituzioni possono partecipare all’addestramento di modelli di IA complessi, senza dipendere da enormi cluster di GPU centralizzati. Questo potrebbe stimolare una maggiore innovazione e competizione nel campo dell’IA, rendendo la tecnologia più accessibile a un pubblico più ampio.
Tuttavia, è importante notare che DisTrO si basa ancora su GPU e che l’ottimizzazione riguarda principalmente la riduzione del traffico di dati tra queste. I test preliminari hanno dimostrato che DisTrO potrebbe ridurre i requisiti di larghezza di banda fino a 1.000-3.000 volte durante la fase di pre-addestramento e fino a 10.000 volte durante la messa a punto del modello, senza un degrado evidente nella qualità del modello.
Nous Research ha invitato altri ricercatori e sviluppatori a esplorare e contribuire a DisTrO. I materiali di supporto e il rapporto preliminare sono disponibili su GitHub, e il team cerca collaboratori per ulteriori miglioramenti e applicazioni di questa tecnologia innovativa.
Con DisTrO, Nous Research non solo sta spingendo i confini della tecnologia IA, ma sta anche promuovendo un ecosistema di ricerca più inclusivo e collaborativo. Questa innovazione potrebbe potenzialmente cambiare il modo in cui i modelli di IA vengono addestrati e utilizzati a livello globale.