Il gruppo EleutherAI ha presentato Llemma, un avanzato modello linguistico per la matematica basato sul dataset Proof-Pile-2. L’entusiasmo nella sfera accademica e scientifica è stato palpabile, dato che Llemma è stato addestrato attraverso l’approccio di formazione iniziale continuo di CodeLlama.
Nonostante presenti somiglianze con Minerva, una creazione matematica specifica di Google Research, la creazione di EleutherAI ha mostrato prestazioni superiori quando confrontata con lo stesso numero di parametri. Llemma si distingue tra i modelli di linguaggio matematico per la sua versatilità, capace di affrontare un’ampia gamma di sfide, comprese quelle legate agli strumenti di matematica formale.
Zhangir Azerbayev, l’autore principale dello studio, ha delineato che il processo di creazione di Llemma è iniziato racogliendo un vasto dataset di token matematici. Tra le risorse utilizzate c’erano il subset ArXiv di RedPajama, il recente dataset OpenWebMath e il nuovissimo AlgebraicStack, un dataset focalizzato sulla matematica. Questo ha permesso un addestramento su un impressionante totale di 55 miliardi di token.
Ciò che rende Llemma speciale è la sua capacità di gestire modelli di dimensioni superiori rispetto ad altri, come Minerva di Google, sia con 7 miliardi che con 34 miliardi di parametri. È degno di nota come Llemma, pur avendo metà dei parametri (34 miliardi), si avvicini alle prestazioni del modello Minerva di Google (62 miliardi).
I modelli di Llemma sono stati inizialmente addestrati con i pesi di Code Llama e successivamente sul cluster di GPU Ezra di StabilityAI, dotato di 256 GPU A100. Il training del modello da 7 miliardi ha richiesto oltre 200 miliardi di token e 23.000 ore su GPU A100, mentre il modello da 34 miliardi ha necessitato di 50 miliardi di token e 47.000 ore su GPU A100.
Quando confrontato con Minerva, Llemma mostra una superiorità nei compiti di ragionamento, specialmente considerando l’approccio di decisione basato sul voto a maggioranza.
L’elaborazione di Llemma è frutto della collaborazione di ricercatori provenienti da diverse istituzioni prestigiose, tra cui Princeton, l’Università di Toronto, il Vector Institute, l’Università di Cambridge, Carnegie Mellon e l’Università di Washington.