Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) hanno fatto progressi enormi, passando da gestire solo poche centinaia di parole di input a comprendere il contenuto di diversi libri contemporaneamente. Questo ampliamento delle capacità di input, chiamato “finestra di contesto”, sta aprendo la strada a nuove applicazioni e utilizzi che prima erano impensabili senza ingenti sforzi ingegneristici.
Un nuovo studio condotto dai ricercatori di Google DeepMind esplora la capacità di apprendimento in contesto (ICL) “many-shot” dei LLM con finestre di contesto molto lunghe. I risultati mostrano che inserendo centinaia o migliaia di esempi di addestramento nel prompt, è possibile migliorare le capacità del modello in modi che in precedenza richiederebbero molta più messa a punto.
L’ICL a lungo termine può diventare uno strumento importante per le aziende che vogliono creare e iterare rapidamente prototipi di applicazioni LLM prima di ottimizzarle per la scalabilità.
L’ICL consente ai LLM di apprendere nuove attività dagli esempi forniti al momento dell’elaborazione. Viene fornito un prompt contenente esempi risolti dell’attività desiderata, consentendo al modello di imparare “a colpi brevi”.
A differenza della messa a punto specifica dell’attività, l’ICL non richiede modifiche ai parametri del modello, rendendolo più facile da usare e accessibile a più utenti. Tuttavia, l’ICL è limitato dalla finestra di contesto del modello. Ad esempio, mentre GPT-3 aveva una finestra di contesto di circa 2.000 token, i modelli attuali supportano oltre 100.000 token e più di un milione nel caso di Gemini 1.5 Pro.
Nel loro studio, i ricercatori di DeepMind hanno esaminato come l’ICL “many-shot” influisce sulle prestazioni dei LLM in varie attività. Hanno sperimentato diversi ambiti problematici, incluso il risolvere problemi di matematica, rispondere a domande, tradurre lingue con poche risorse e altro ancora.
In alcuni casi, hanno incluso fino a 8.192 esempi di addestramento in un unico prompt. I risultati mostrano che le prestazioni del modello migliorano continuamente all’aumentare del numero di esempi nel prompt. Ad esempio, Gemini Pro ha ottenuto risultati all’avanguardia nella traduzione di lingue con poche risorse e nelle attività di riepilogo.
Tuttavia, l’ICL “many-shot” richiede un grande volume di esempi di alta qualità, il che può essere problematico, soprattutto nei compiti di ragionamento. I ricercatori propongono due tecniche per ridurre questa dipendenza dai dati umani: “ICL rinforzata” e “ICL non supervisionato”.
L’ICL multi-shot può superare i pregiudizi pre-addestramento e apprendere compiti di previsione del linguaggio non naturale. Tuttavia, attualmente non è scalabile per applicazioni LLM ad alto volume.