Ricercatori di Google Deepmind e dell’Università della Southern California hanno proposto un nuovo quadro per migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) chiamato “auto-scoperta”. Questo nuovo approccio, pubblicato su arXiv e Hugging Face, supera le tecniche di suggerimento esistenti utilizzate dagli LLM e ha dimostrato di migliorare le prestazioni di modelli noti come GPT-4 di OpenAI e PaLM 2 di Google.
L’auto-scoperta si basa sulla struttura intrinseca del ragionamento dei compiti, permettendo ai modelli di esaminare diversi moduli di ragionamento atomico, come il pensiero critico e il pensiero passo passo, e di comporli in una struttura di ragionamento esplicita che i LLM possono seguire durante la decodifica. Ciò porta a un miglioramento delle prestazioni fino al 32% su benchmark impegnativi come BigBench-Hard e MATH, rispetto alle tecniche esistenti come Chain of Thought (CoT).
Questo nuovo approccio funziona anche con un calcolo di inferenza significativamente inferiore, rendendolo vantaggioso per le aziende. I LLM, alimentati dall’architettura del trasformatore, utilizzano varie tecniche di suggerimento ispirate alle teorie cognitive umane per risolvere i problemi. Tuttavia, l’auto-scoperta si distingue per la sua capacità di individuare autonomamente la struttura sottostante unica di un compito e scegliere la tecnica di ragionamento più adatta.
Testato su diversi modelli e compiti di ragionamento, l’auto-scoperta ha dimostrato di superare altre tecniche di ragionamento con miglioramenti delle prestazioni fino al 32%. Ad esempio, lavorando con GPT-4, l’approccio ha ottenuto una precisione dell’81%, dell’85% e del 73% rispettivamente nei compiti Big-Bench Hard, Thinking for Doing e Math, superando ampiamente le tecniche di catena di pensiero e pianifica e risolvi.
Questo nuovo quadro potrebbe aprire nuove strade nella risoluzione dei problemi per gli LLM, avvicinandoli all’obiettivo dell’intelligenza generale. Gli studi di trasferibilità mostrano che le strutture di ragionamento composte sono universalmente applicabili e condividono punti in comune con i modelli di ragionamento umano. Il futuro potrebbe vedere ulteriori esplorazioni sul ragionamento strutturato degli LLM per migliorare la collaborazione uomo-intelligenza artificiale.