Negli ultimi tempi, i modelli linguistici di grandi dimensioni (LLM) con ampie finestre di contesto hanno attirato molta attenzione. La capacità di gestire centinaia di migliaia o persino milioni di token in un singolo prompt offre nuove opportunità agli sviluppatori. Tuttavia, quanto bene comprendono realmente questi LLM le enormi quantità di informazioni che ricevono?
Per rispondere a questa domanda, i ricercatori di Google DeepMind hanno introdotto Michelangelo, un nuovo benchmark progettato per valutare le capacità di ragionamento a lungo contesto degli LLM. I risultati, pubblicati in un recente studio, mostrano che, sebbene i modelli attuali abbiano fatto progressi nel recupero delle informazioni da contesti estesi, incontrano ancora difficoltà in compiti che richiedono un ragionamento più complesso sulla struttura dei dati.
Con l’emergere di LLM che possono gestire finestre di contesto da 128.000 a oltre 1 milione di token, i ricercatori hanno sentito la necessità di sviluppare nuovi benchmark per valutare queste capacità. Tuttavia, la maggior parte dell’attenzione è stata rivolta a compiti di recupero, come la valutazione “ago nel pagliaio”, in cui il modello deve trovare un’informazione specifica all’interno di un vasto contesto.
Kiran Vodrahalli, ricercatore presso Google DeepMind, ha affermato che, mentre i modelli sono diventati più capaci nelle prestazioni a lungo contesto, è diventato cruciale verificare se possono risolvere anche compiti più complessi che riescono a gestire in contesti brevi. Le attività di recupero non riflettono necessariamente la capacità di un modello di ragionare sull’intero contesto.
Per affrontare i limiti degli attuali benchmark, i ricercatori hanno creato Michelangelo, una valutazione minima e sintetica per LLM. Questa nuova valutazione si ispira all’idea di uno scultore che rimuove pezzi di marmo non necessari per rivelare la struttura sottostante. Michelangelo si concentra sulla comprensione delle relazioni e della struttura delle informazioni all’interno della finestra di contesto, piuttosto che sul semplice recupero di fatti isolati.
Il benchmark comprende tre attività principali:
- Latent List: il modello deve elaborare una lunga sequenza di operazioni su un elenco Python, filtrando le istruzioni irrilevanti e determinando lo stato finale dell’elenco. Questa attività valuta la capacità del modello di seguire le proprietà di una struttura di dati nel corso delle istruzioni.
- Risoluzione di co-riferimento multi-round (MRCR): il modello deve generare parti di una conversazione lunga tra un utente e un LLM, comprendendo la struttura della conversazione e risolvendo riferimenti a scambi precedenti.
- “Non lo so” (IDK): al modello viene presentata una lunga storia e deve rispondere a domande a risposta multipla. Quando non conosce la risposta, deve riconoscerlo e rispondere con “Non lo so”. Questa attività misura la capacità del modello di comprendere i propri limiti di conoscenza.
Le attività di Michelangelo si basano su un nuovo framework chiamato Latent Structure Queries (LSQ), che fornisce un approccio per progettare valutazioni di ragionamento a lungo contesto estensibili. LSQ permette di testare la comprensione del modello di informazioni implicite piuttosto che semplicemente recuperare fatti.
LSQ si distingue per tre aspetti:
- È progettato per evitare difetti di cortocircuito nelle valutazioni.
- Specifica una metodologia per aumentare la complessità delle attività e la lunghezza del contesto.
- È abbastanza generale da coprire una vasta gamma di attività di ragionamento.
I ricercatori hanno testato dieci LLM di frontiera, tra cui diverse varianti di Gemini, GPT-4 e Claude. Anche se i modelli hanno ottenuto risultati variabili, tutti hanno mostrato una diminuzione delle prestazioni all’aumentare della complessità dei compiti di ragionamento, suggerendo che c’è ancora molto da migliorare.
Vodrahalli ha notato che i modelli attuali hanno margini di miglioramento in tutti gli aspetti di ragionamento a lungo termine studiati in Michelangelo. I risultati possono avere implicazioni significative per le applicazioni aziendali, specialmente in contesti in cui il modello deve eseguire un ragionamento multi-hop.