L’arrivo di LLaMA e Llama 2 di Meta ha segnato una svolta significativa nell’evoluzione dei modelli di linguaggio molto grandi (LLM). Inizialmente, molte persone ritenevano che i modelli non potessero diventare più compatti senza compromettere le loro prestazioni. Tuttavia, con l’introduzione di TinyLlama, questa convinzione è stata sfidata in modo sorprendente, portando a una serie di discussioni sulla scalabilità dei modelli LLM.
L’assistente di ricerca presso l’Università di Singapore, Zhang Peiyuan, ha intrapreso un progetto ambizioso: addestrare un modello con 1,1 miliardi di parametri denominato TinyLlama, basato su Llama 2, utilizzando un set di dati massiccio di 3 trilioni di token. L’obiettivo era raggiungere questo risultato in soli 90 giorni, impiegando solo 16 GPU A100-40G, a un ritmo di 24.000 token al secondo per GPU. Per mettere le cose in prospettiva, il costo stimato di un addestramento del genere sui server AWS sarebbe stato di circa $40.000.
Se il progetto avesse successo, TinyLlama avrebbe stabilito un nuovo punto di riferimento nell’ambito dei LLM, aprendo la strada a nuove applicazioni che richiedono risorse computazionali limitate. Questo perché i 1,1 miliardi di parametri di TinyLlama occupano solo 550 MB di RAM. Tuttavia, molte persone rimangono scettiche riguardo a questo progetto.
Il set di dati massiccio di 3 trilioni di token è composto per il 70% da Slimpajama e per il 30% da Starcoderdata. La domanda che sorge spontanea è: cosa si otterrebbe addestrando un modello da 1,1 miliardi di parametri per un periodo così lungo? Non potrebbe questo violare la legge di ridimensionamento di Chinchilla?
La legge di ridimensionamento di Chinchilla sostiene essenzialmente che, per ottenere il massimo rendimento dall’addestramento di un modello linguistico basato su trasformatori, il numero di parametri e il numero di token utilizzati nell’addestramento del modello dovrebbero aumentare in proporzione approssimativamente uguale. In altre parole, modelli più grandi dovrebbero essere in grado di apprendere e migliorare in modo più efficiente.
Tuttavia, quando si tratta di modelli più grandi come GPT o PaLM, il punto di saturazione potrebbe essere raggiunto solo molto più tardi, grazie alla loro capacità di addestrarsi per periodi più lunghi. OpenAI ha affermato che, in generale, modelli più grandi dovrebbero superare quelli più piccoli in termini di prestazioni. Ma la teoria suggerisce che modelli più piccoli potrebbero raggiungere un limite nella loro capacità di apprendimento, riducendo la loro velocità di progresso. Ad esempio, addestrare un modello da 7 miliardi di parametri su 2 trilioni di token potrebbe essere più vantaggioso che addestrare un modello da 1 miliardo di parametri su 3 trilioni di token.
La domanda principale su TinyLlama è se abbia senso addestrare un modello con 1,1 miliardi di parametri su 3 trilioni di token, dato che potrebbe essere al di là di un punto di saturazione efficace. Tuttavia, è proprio questo il motivo principale di questo esperimento.
Il dibattito sull’efficacia dei modelli più grandi rispetto a quelli più piccoli è ancora aperto, e Meta, attraverso Llama, sta cercando costantemente di dimostrare che la legge di ridimensionamento di Chinchilla potrebbe non essere più così rilevante. L’articolo Llama 2 afferma che, anche dopo l’addestramento su 2 trilioni di token, i modelli non mostravano segni evidenti di saturazione, il che potrebbe aver ispirato Peiyuan a sperimentare con TinyLlama e 3 trilioni di token.
Tuttavia, sorge la domanda su perché Meta non abbia continuato ad addestrare Llama 2 oltre i 2 trilioni di token e perché non abbia rilasciato ulteriori aggiornamenti al modello in tempi più brevi. Una possibile spiegazione potrebbe essere che il vantaggio previsto da ulteriori addestramenti potrebbe essere troppo marginale per giustificare l’investimento.
Allo stesso tempo, potrebbe essere che il prossimo passo sia creare modelli ancora più piccoli e addestrarli con un numero ancora maggiore di token. Meta sembra voler coinvolgere la sua comunità open source per testare le capacità dei modelli, mentre potrebbe essere impegnata in esperimenti più riservati.
In definitiva, la quantità di conoscenza che i modelli più piccoli possono assimilare potrebbe essere limitata, ma progetti come TinyLlama stanno cercando di sfidare questa idea preconcetta. Mentre attendiamo di vedere i progressi nell’addestramento di TinyLlama, è interessante notare che questo modello è già in competizione con altri modelli di intelligenza artificiale come StableLM-Alpha-3B e Pythia-1B.
Se il progetto avrà successo, rappresenterà un passo significativo per l’utilizzo di modelli di intelligenza artificiale su dispositivi singoli. Altrimenti, potremmo essere costretti a riconoscere che la legge di ridimensionamento di Chinchilla ha ancora validità. Secondo le parole di Peiyuan, “Non abbiamo certezze, questo è un processo aperto senza promesse o obiettivi definiti. L’unico obiettivo è ‘1.1B su 3T'”.