I modelli di linguaggio di grandi dimensioni (LLM) come ChatGPT, LLaMA 2, Claude 2 e altri, sono diventati protagonisti nel settore software aziendale. Ma la loro formazione richiede notevoli risorse di calcolo, tipicamente nelle mani di colossi come OpenAI e Google.

Tuttavia, un cambiamento potrebbe essere all’orizzonte. Sebastien Bubeck, alla guida del team di Machine Learning Foundation presso Microsoft Research, ha introdotto un modello open source efficiente chiamato phi-1.5. Questo modello utilizza dati sintetici generati da LLM esistenti, come ChatGPT, offrendo prestazioni paragonabili agli LLM principali ma a una frazione del costo e del tempo.

Verso una formazione AI evoluta

Phi-1.5, presentato recentemente in un articolo, rappresenta un miglioramento del modello phi-1, precedentemente introdotto da Bubeck. Questo nuovo modello, pur avendo solo 1 miliardo di parametri (invece dei 100 miliardi di alcuni concorrenti), ha dimostrato capacità simili ai modelli più grandi. E, poiché si basa solo su dati sintetici, evita problemi legati al web scraping o ai diritti d’autore.

Quando interrogato sulle ambizioni di phi-1.5, Bubeck ha sottolineato l’intenzione di renderlo ampliamente accessibile. L’addestramento del modello ha richiesto solamente due settimane e otto GPU A100, rendendolo accessibile anche a budget ridotti.

Una nuova metodologia di addestramento

Il principio guida di Bubeck è semplice: se desideri istruire qualcuno, offri materiali accuratamente selezionati, piuttosto che un’overdose di informazioni. Attraverso questa filosofia, il team ha creato ‘libri di testo’ sintetici usando ChatGPT per formare phi-1.5, assicurando che i dati siano ricchi e diversificati.

La squadra ha anche adottato un approccio combinato per generare storie diverse, ispirandosi al progetto “Tiny Stories” di Ronen Eldan e Yunazhi Li. Questa metodologia enfatizza la frequenza dei “token di ragionamento”, migliorando la qualità dei risultati.

Oltre i benchmark tradizionali

Anche se phi-1.5 ha ottenuto risultati impressionanti nei test tradizionali, Bubeck sottolinea l’importanza di valutazioni più sfumate. Sostiene che, piuttosto che affidarsi a benchmark statici, è essenziale sperimentare direttamente con i modelli, interagendo in conversazioni dinamiche.

Microsoft ha rilasciato phi-1.5 con una licenza di ricerca, permettendo a chiunque di testare il modello in modo più flessibile rispetto ai test tradizionali.

Conclusione

La formazione di LLM attraverso dati sintetici potrebbe rendere l’IA più accessibile a una vasta gamma di individui e aziende. L’approccio innovativo di Bubeck potrebbe essere il punto di partenza per una nuova era dell’IA: più decentralizzata e democratica.

Di ihal