Una nuova architettura sta emergendo con il potenziale di rivoluzionare la capacità dei modelli di linguaggio di affrontare compiti complessi. Ricercatori delle università dell’Illinois e della Virginia hanno sviluppato un modello denominato Energy-Based Transformer (EBT), che adotta un approccio innovativo: “pensare come ottimizzazione”. Questo paradigma mira a migliorare la capacità di ragionamento dei modelli, consentendo loro di affrontare problemi più complessi in modo più efficiente.
La psicologia distingue tra due modalità di pensiero umano: il Sistema 1, rapido e intuitivo, e il Sistema 2, lento e analitico. I modelli di linguaggio attuali eccellono nel Sistema 1, ma faticano con compiti che richiedono il Sistema 2, come la risoluzione di problemi complessi e la generalizzazione a situazioni nuove. Tradizionalmente, per migliorare le capacità di ragionamento, si è ricorsi a tecniche come l’apprendimento per rinforzo (RL) e la generazione di multiple risposte per selezionare la migliore. Tuttavia, questi metodi presentano limiti, come la scarsa generalizzazione e la dipendenza da schemi di ragionamento preesistenti.
L’EBT propone un cambiamento fondamentale: anziché generare direttamente una risposta, il modello apprende una “funzione di energia” che agisce come un verificatore. Questa funzione assegna un valore (energia) a una previsione, dove un punteggio basso indica alta compatibilità con l’input. Il processo inizia con una previsione casuale, che viene poi raffinata minimizzando il punteggio di energia fino a convergere su una risposta altamente compatibile. Questo approccio consente una maggiore flessibilità e una migliore generalizzazione, poiché la verifica di una soluzione è spesso più semplice della generazione di una risposta corretta da zero.
I vantaggi dell’EBT sono:
- Allocazione dinamica delle risorse: i modelli possono “pensare” più a lungo su problemi complessi e meno su quelli semplici, ottimizzando l’uso delle risorse computazionali.
- Gestione dell’incertezza: gli EBT possono affrontare problemi reali dove non esiste una risposta chiara, migliorando la robustezza del ragionamento.
- Verifica integrata: agendo come propri verificatori, gli EBT eliminano la necessità di modelli esterni, semplificando l’architettura complessiva.
- Generalizzazione migliorata: poiché la verifica è spesso più semplice della generazione, gli EBT possono adattarsi meglio a scenari nuovi e non visti.
ùDurante la fase di pre-addestramento, gli EBT hanno mostrato un’efficienza superiore, raggiungendo un tasso di scalabilità fino al 35% superiore rispetto ai modelli tradizionali come Transformer++. Inoltre, durante l’inferenza, gli EBT hanno superato i modelli esistenti in compiti di ragionamento, migliorando le prestazioni del modello linguistico del 29% in più rispetto a Transformer++. Questa capacità di “pensare più a lungo” e di “autoverificarsi” rappresenta un passo significativo verso modelli più intelligenti e adattabili.
L’approccio “pensare come ottimizzazione” potrebbe segnare una svolta nell’evoluzione dell’intelligenza artificiale, spostando l’attenzione dalla semplice scalabilità dei modelli alla loro capacità di ragionamento profondo e adattabilità. Questo potrebbe portare a applicazioni più robuste e generalizzabili, riducendo la necessità di modelli specializzati e migliorando l’efficienza complessiva. Per le aziende e gli sviluppatori, l’adozione di EBT potrebbe tradursi in applicazioni di IA più potenti e affidabili, in grado di affrontare una vasta gamma di compiti complessi.