I Transformers, modelli di intelligenza artificiale largamente utilizzati per la comprensione e la generazione del linguaggio naturale, stanno emergendo come una soluzione versatile e potente per affrontare una vasta gamma di problemi, non limitandosi più solo a quelli legati al linguaggio. Secondo un recente studio di Denny Zhou, direttore della ricerca presso Google DeepMind, questi modelli potrebbero risolvere praticamente qualsiasi problema, purché possano generare tutti i token di ragionamento intermedi necessari.
Originariamente progettati per prevedere la parola successiva in una frase, i Transformers si sono evoluti per lavorare su qualsiasi tipo di dati che possano essere suddivisi in token. Questa capacità ha portato a considerare questi modelli come strumenti universali, capaci di affrontare problemi complessi anche al di fuori del dominio linguistico.
Uno degli approcci chiave che rende i Transformers così potenti è la tecnica nota come “Chain of Thought” (CoT), o “Catena di Pensiero”. Questo metodo permette al modello di seguire una “road map” di ragionamento, scomponendo i problemi in una serie di passaggi logici. In assenza di CoT, i Transformers possono risolvere solo problemi che rientrano in classi di complessità parallelizzabili (come AC0/TC0). Tuttavia, con CoT, i modelli possono affrontare problemi più complessi che richiedono un ragionamento sequenziale, aumentando così la loro capacità di calcolo.
La tecnica CoT si è rivelata cruciale per migliorare le prestazioni dei modelli di intelligenza artificiale in contesti complessi. Zhiyuan Li, professore associato al Toyota Technological Institute di Chicago, sottolinea che CoT consente un calcolo più iterativo e sequenziale, fondamentale per risolvere problemi intrinsecamente seriali. Senza questa tecnica, i modelli possono affrontare solo problemi che possono essere risolti rapidamente in parallelo.
Un esempio pratico di questa capacità si è visto quando i ricercatori di Google hanno utilizzato CoT per risolvere problemi classici dell’informatica, come il Circuit Value Problem (CVP) e il Permutation Composition Problem. Questi risultati dimostrano come l’abilitazione di CoT consenta ai Transformers di affrontare sfide computazionali che richiedono un alto grado di complessità sequenziale.
Uno degli aspetti più interessanti di CoT è la sua capacità di rendere l’intelligenza artificiale più spiegabile e meno incline alla cosiddetta “scatola nera”. Grazie a questa tecnica, è possibile tracciare il processo decisionale del modello, permettendo agli esseri umani di comprendere meglio come vengono generate le risposte. Questo rappresenta un passo importante verso l’adozione di sistemi di IA che siano non solo più potenti, ma anche più trasparenti e affidabili.
Nonostante i notevoli progressi, ci sono ancora delle sfide da affrontare. L’uso intensivo di CoT implica un aumento significativo del numero di token necessari, il che comporta costi maggiori e tempi di risposta più lunghi. Tuttavia, ci sono ragioni per essere ottimisti. La legge di Mosaic prevede una riduzione del 75% dei costi di addestramento ogni anno, mentre la legge di Koomey suggerisce che l’efficienza energetica del calcolo raddoppia ogni 1,5 anni. Questi miglioramenti potrebbero rendere l’uso estensivo di CoT più praticabile nel prossimo futuro.