È stato annunciato il lancio di un modello linguistico di grandi dimensioni (LLM) da 10 miliardi di parametri, sviluppato su un’infrastruttura di calcolo distribuita a livello globale, invece di un singolo cluster centralizzato. Questa è la prima volta che un modello di questa portata viene addestrato in un contesto distribuito.
Secondo un rapporto di Mark Tech Post dell’11 ottobre, la startup di intelligenza artificiale Prime Intellect ha presentato “Intellect-1”, il primo metodo di apprendimento basato su modelli distribuiti, dove chiunque può contribuire con risorse di calcolo. Questo approccio rappresenta una svolta importante nell’intelligenza artificiale open source.
Tradizionalmente, lo sviluppo di modelli di intelligenza artificiale richiede enormi risorse informatiche, accessibili principalmente a grandi aziende. Questa centralizzazione ha limitato la partecipazione di piccole organizzazioni e singoli individui nel processo di sviluppo dell’IA. Con “Intellect-1”, Prime Intellect ha introdotto un modello “decentralizzato” che consente a chiunque di contribuire e partecipare all’addestramento dell’IA.
Intellect-1 mira a creare LLM generali in grado di comprendere e generare risposte umane a domande complesse in vari contesti. Utilizza un metodo di apprendimento distribuito che riunisce le risorse di calcolo dei singoli contribuenti, consentendo un’istruzione su larga scala senza dipendere da costosi supercomputer centralizzati.
Per raggiungere questo obiettivo, Prime Intellect ha sviluppato un framework di formazione distribuito chiamato “OpenDiLoCo”, che facilita lo sviluppo di modelli collaborativi su hardware distribuito globalmente. OpenDiLoCo è un progetto open source che si basa sulla tecnologia distribuita di DeepMind, chiamata “DiLoCo”.
L’approccio DiLoCo consiste nell’addestrare una copia condivisa del modello con partizioni di dati indipendenti assegnate a ciascun cluster distribuito. Ogni cluster aggiorna iterativamente il modello ogni 500 passaggi utilizzando la discesa del gradiente stocastico. Questo riduce significativamente la frequenza di comunicazione, abbattendo la larghezza di banda necessaria per la formazione distribuita. Le medie ponderate di ciascun cluster vengono quindi utilizzate per aggiornare la copia del modello condiviso, che viene poi ridistribuita a tutti i cluster.
Questo approccio ha un’importanza significativa per vari motivi. Innanzitutto, promuove una visione di collaborazione aperta, decentralizzando il processo di apprendimento e rendendo la ricerca sull’intelligenza artificiale accessibile a una gamma più ampia di organizzazioni e individui.
Di conseguenza, questo può rappresentare una base per lo sviluppo dell'”intelligenza generale artificiale (AGI) open source”, integrando diverse prospettive e dati da tutto il mondo.