Il Massachusetts Institute of Technology (MIT) ha recentemente implementato una tecnica innovativa chiamata “test-time training” (TTT) su un modello Llama 3 8B fine-tuned, ottenendo un’accuratezza record del 61,9% sul benchmark ARC (Abstraction and Reasoning Corpus). Questo risultato rappresenta un passo significativo verso lo sviluppo di capacità di problem-solving simili a quelle umane nei modelli di linguaggio.
Creato da François Chollet, l’ARC è considerato l’unico benchmark che misura i progressi verso l’intelligenza generale. Consiste in problemi nuovi progettati per valutare le capacità di ragionamento logico di un modello. Il test richiede al modello di risolvere puzzle visivi, riconoscendo pattern da una serie di esempi input-output e applicando questa comprensione a nuove situazioni. Le sfide presentate dall’ARC sono progettate per evitare dipendenze culturali o linguistiche, concentrandosi esclusivamente sulle capacità di ragionamento del modello.
I modelli di linguaggio di uso generale hanno finora faticato a ottenere punteggi elevati sull’ARC. Ad esempio, l’o1 Preview di OpenAI ha ottenuto meno del 10%, mentre Claude 3.5 di Anthropic ha raggiunto meno del 25%. Il leader attuale, MindsAI, ha raggiunto un punteggio del 55% utilizzando una tecnica che fine-tune il modello durante il test. Nonostante il MIT abbia ottenuto un punteggio del 61,9%, non ha ancora superato MindsAI nella classifica ufficiale a causa di differenze nei set di dati utilizzati e nei limiti di tempo del test
Il team del MIT ha adottato un approccio in due fasi:
- Fine-tuning iniziale: Utilizzando l’adattamento a bassa rank (LoRa), il modello è stato addestrato su un dataset pubblico dell’ARC, comprendente vari esempi input-output. Durante questa fase, il modello ha anche aumentato il dataset utilizzando un approccio leave-one-out, migliorando la sua comprensione dei problemi dell’ARC.
- Test-time training (TTT): Durante la risoluzione di un caso di test reale, il modello ha generato diverse trasformazioni degli input, come variazioni nelle dimensioni della griglia, nei colori o nell’orientamento. Per ciascuna trasformazione, il modello ha valutato la probabilità che l’output previsto fosse corretto, selezionando infine la soluzione con la probabilità più alta.
Questo approccio ha permesso al modello di adattarsi dinamicamente durante il test, migliorando significativamente le sue prestazioni.
I risultati ottenuti dal MIT suggeriscono che il test-time training potrebbe essere una componente cruciale nello sviluppo di modelli di intelligenza artificiale generale (AGI). La capacità di adattarsi e apprendere durante il test avvicina i modelli di IA a un comportamento più simile a quello umano, dove l’apprendimento continuo e l’adattamento sono fondamentali. Questo approccio potrebbe rappresentare un passo significativo verso la realizzazione di sistemi di IA con capacità di ragionamento e problem-solving più avanzate.