Nel 2017, la comunità scientifica globale fu scossa da un paper proveniente dal team di Google Brain, intitolato con un’apparente semplicità: “Attention Is All You Need”. Quel lavoro, apparentemente destinato agli specialisti dell’apprendimento automatico, non fu una semplice ottimizzazione, ma una rivoluzione architettonica che avrebbe ridefinito per sempre il panorama dell’Intelligenza Artificiale. Eliminando la dipendenza dalla computazione sequenziale (tipica delle Reti Neurali Ricorrenti, RNN) in favore del meccanismo di self-attention, il paper diede i natali all’architettura Transformer. Questa innovazione permise una massiccia parallelizzazione del calcolo e, di conseguenza, lo scaling senza precedenti dei modelli, gettando le basi tecnologiche per tutti gli attuali Modelli Linguistici di Grandi Dimensioni (LLM), da GPT a Gemini.
Oggi, mentre il mondo intero continua a costruire sulla fondazione del Transformer, la domanda che circola nei laboratori di ricerca di Mountain View è la più cruciale: quale sarà il prossimo momento “Attention Is All You Need”? Quale sarà la prossima intuizione fondamentale che sbloccherà un salto quantico nella capacità dell’AI?
Se il Transformer ha risolto il problema della produzione di linguaggio su vasta scala, il limite intrinseco dei sistemi attuali risiede nella loro capacità di agire e ragionare sul mondo reale e virtuale. È qui che si concentra una delle aree di ricerca più intense di Google DeepMind: l’evoluzione verso l’AI Multimodale e Agente.
Le scoperte odierne non riguardano più solamente l’analisi del testo, ma la fusione di diverse modalità — testo, immagini, video, audio e dati sensoriali — in un unico modello coerente, come esemplificato dalla famiglia Gemini. L’obiettivo è superare l’intelligenza superficiale per creare modelli capaci di agire in modo autonomo e orientato agli obiettivi, gestendo sequenze complesse di compiti. Progetti come SIMA (un agente per mondi 3D virtuali), Genie (un modello che genera ambienti interattivi) e l’integrazione della robotica con l’AI testimoniano una scommessa fondamentale: il prossimo grande balzo in avanti sarà concettuale. Sarà l’invenzione di un’architettura che non solo elabora dati, ma apprende a formarsi una rappresentazione coerente del mondo — un “world model” — che le permetta di pianificare, simulare e interagire in ambienti complessi con l’affidabilità di un essere umano.
Questa transizione dall’AI che risponde all’AI che agisce richiede nuove teorie algoritmiche per la gestione della memoria, la coerenza a lungo termine e, crucialmente, per l’apprendimento basato sull’esperienza piuttosto che solo sui dati statici di training.
Non tutta la prossima rivoluzione potrebbe provenire dal software. Il CEO di Google, Sundar Pichai, ha più volte suggerito che il passo successivo, di pari magnitudine a quello del Transformer, potrebbe essere ricercato in un campo apparentemente distinto ma intrinsecamente connesso: l’Informatica Quantistica.
Pichai ha indicato che il quantum computing si trova oggi dove l’Intelligenza Artificiale era circa cinque anni fa, alludendo a un’imminente curva di accelerazione esponenziale. L’informatica quantistica non è un’evoluzione del calcolo tradizionale, ma un cambiamento radicale nelle leggi fisiche utilizzate per elaborare le informazioni. I progressi di Google, come il chip “Willow” e l’algoritmo “Quantum Echoes”, mirano a superare la soglia della correzione degli errori, essenziale per rendere i computer quantistici utili.
Una volta che un computer quantistico con correzione degli errori diventerà operativo, la sua potenza di calcolo potrebbe risolvere problemi che oggi sono considerati intrattabili per i supercomputer classici. Questo non solo rivoluzionerà la simulazione di materiali, la scoperta di farmaci e la logistica, ma potrebbe fornire la piattaforma hardware e algoritmica necessaria per addestrare modelli di AI di una complessità oggi inimmaginabile, superando i limiti di scaling che persino l’architettura Transformer incontrerà prima o poi.
È improbabile che il prossimo momento “Attention Is All You Need” sia un singolo paper che rivoluziona solo il linguaggio. Il suo impatto, come quello del suo predecessore, sarà trasformativo su più discipline.
La vera rivoluzione sarà probabilmente la convergenza di queste aree di ricerca: l’AI Multimodale e Agente fornirà la nuova architettura concettuale per interagire e ragionare sul mondo, mentre il calcolo quantistico fornirà il potere computazionale fondamentale necessario per portare queste ambizioni all’estremo. La ricerca di Google, distribuita tra DeepMind, Google Research e l’ecosistema Cloud, è un tentativo coordinato di non limitarsi a costruire sulla fondazione Transformer, ma di gettare le fondamenta per la prossima generazione di intelligenza artificiale, dove le macchine non saranno solo capaci di parlare, ma di pensare, agire e scoprire in modi che oggi possiamo solo ipotizzare.
