Immaginiamo uno strumento di intelligenza artificiale in grado di riprodurre centinaia di videogiochi a un livello supremo, un robot fantastico per tutti igames possibili, dagli scacchi ai VR. E non solo, ma è anche in grado di ottimizzare i progetti di microchip e di essere utilizzato anche per la robotica generica a livello di settore.
Nel complesso, un robot di intelligenza generale come niente che abbiamo mai visto. Bene, sembra che un annuncio senza precedenti da parte di Google ci avvicini molto di più a quella possibilità di un’intelligenza artificiale un tempo ritenuta impossibile.
Per essere onesti, è naturale per molte persone che si sono appena rese conto che l’IA è sorprendente, pensare che l’IA sia limitata agli strumenti GenAI come ChatGPT. In effetti, la vera ragione della mania dell’IA è il fatto che abbiamo raggiunto una nuova frontiera per l’IA con i modelli di linguaggio naturale.
E quella frontiera non è un chatbot in grado di scrivere poesie dal nulla, ma il fatto che ora siamo in grado di addestrare soluzioni di linguaggio naturale con diversi set di dati, ottenendo ciò che descriviamo come trasformatori pre-addestrati.
Questi modelli di intelligenza artificiale sono modelli linguistici che possono essere facilmente adattati alle attività a valle, ovvero adattati a casi d’uso specifici, come ChatGPT, un’implementazione chatbot dell’LLM che si chiama GPT.
In parole povere, la vera trasformazione che abbiamo ottenuto nell’IA sta costruendo modelli di linguaggio AI che si comportano ragionevolmente bene in più scenari, consentendo la creazione di soluzioni come ChatGPT.
In effetti, la realtà è che l’intelligenza artificiale è molto, molto più che trasformatori pre-addestrati come GPT. In realtà, sono solo l’inizio.
All’insaputa di molti, campi di intelligenza artificiale come Computer Vision o Offline RL hanno un potenziale folle. Tuttavia, mentre il primo ha già diversi casi d’uso in cui è già utilizzato attivamente, il secondo è rimasto costantemente indietro nel corso degli anni. Finora.
Beh, almeno questo è ciò che sostiene Google. Ma non solo, Google sta pretendendo molto di più, al punto da pensare che Offline RL possa portare il mondo della robotica ad un altro livello. Ma prima di tutto, cos’è Offline RL, o cosa più importante, cos’è RL?
Quasi tutto nell’IA riguarda tentativi ed errori. Misuri un errore e trovi modi per minimizzarlo fornendo al modello molti dati. Ed ecco qua, questa è una descrizione di una frase dell’IA. Tuttavia, mentre alcune soluzioni AI come ChatGPT vengono addestrate misurando questo errore per ridurlo al minimo in una procedura di apprendimento completa, Reinforcement Learning, o RL, è un processo in più fasi che richiede “interazione”. Per ogni fase del processo, il modello riconosce il suo stato (la sua situazione nell’ambiente), esegue un’azione e, se l’azione implica un’approssimazione allo stato finale desiderato, riceve una ricompensa.
Per capire meglio, possiamo usare un esempio, i videogiochi. Per ogni azione che il modello compie nel gioco, comprende l’impatto di tale azione, ricevendo potenzialmente una ricompensa e rimodellando i suoi parametri per massimizzare tali ricompense. In questo modo, il modello apprende quali azioni producono ricompense e definisce la politica e la strategia che seguirà per massimizzarle.
Ma perché addestriamo i modelli di intelligenza artificiale in questo modo? Perché, a quanto pare, è il modo ideale per addestrare l’IA in situazioni decisionali. Tuttavia, nonostante le impressionanti qualità di RL, ha un problema… è dannatamente costoso da addestrare. Fortunatamente, è qui che viene in soccorso il termine Offline.
Offline RL è considerato uno dei sacri graal dell’IA, come risposta a un desiderio a lungo ambito: come rendiamo RL, un campo che sappiamo essere il vero affare per il processo decisionale, conveniente, scalabile e accessibile?
Il concetto chiave qui è che, anche se RL è estremamente utile, il costo della formazione “online” (facendo interagire un modello di intelligenza artificiale con l’ambiente reale per apprendere) è molto alto.
Per questo motivo, per molto tempo, gli scienziati dell’IA si sono chiesti se esistesse un modo per pre-addestrare questi modelli in ambienti “offline” (da un set di dati di dati invece di apprendere interagendo con l’ambiente reale) utilizzando set di dati generalizzati.
In questo modo, riduci al minimo i costi consentendo anche agli ingegneri di intelligenza artificiale di avere un solido punto di partenza, una buona spina dorsale su cui possono essere addestrate soluzioni più particolari e su misura.
In altre parole, ciò che gli scienziati di intelligenza artificiale stanno cercando da molto tempo con RL è raggiungere il punto che abbiamo appena raggiunto con la PNL con trasformatori pre-addestrati; un punto di partenza di alta qualità per nuove soluzioni AI. In altre parole, modelli RL generalistici che possono essere facilmente addestrati in utilità specifiche in modo economico e altamente efficiente.
In un documento che non è stato ancora presentato ufficialmente, Google ha annunciato robot pre-addestrati in grado di svolgere molteplici attività diverse e anche di essere facilmente addestrati per ambiziosi compiti a valle.
Utilizzando una tecnica descritta come Conservative Q-Learning, o CQL, Google è riuscita a creare agenti di intelligenza artificiale in grado di giocare a più giochi Atari anche dopo essere stati addestrati con dati di scarsa qualità e in ambienti offline.
Q-learning è una tecnica RL che consente ai modelli RL di apprendere una strategia di esecuzione individuando una funzione Q (Q viene da Quality) che apprende mentre interagisce con l’ambiente. In breve, questa funzione Q viene appresa considerando la ricompensa nello stato attuale – ricorda, RL sta semplicemente applicando un’azione in uno stato noto e vedendo quale ricompensa ottengo – considerando anche la ricompensa futura scontata. In altre parole, il modello RL apprende il percorso della massima ricompensa (comunque per tentativi ed errori).
È un termine interessante che si riferisce alla limitazione delle aspettative del modello riguardo a valori invisibili. In altre parole, poiché il modello sta imparando questa funzione Q in un ambiente offline, il modello tenderà naturalmente a sopravvalutare ciò che ha appreso.
Per quanto riguarda i giochi di allenamento, il modello mostra prestazioni impressionanti anche con dati altamente subottimali. Inoltre, quando viene fornito con dati quasi ottimali, supera di gran lunga i metodi di apprendimento non Q. È interessante notare che, anche se confrontato con modelli 2,5 volte più grandi, raggiunge più del doppio del punteggio.
La cosa più impressionante qui è ciò che uno degli autori, Sergey Levine, ha descritto come “Scaling Laws”. Il motivo per cui ChatGPT è eccezionale è che il modello sottostante, GPT, si ridimensiona con le dimensioni. In altre parole, GPT funziona meglio quanto più grande diventa, ridimensionandosi proporzionalmente agli incrementi delle dimensioni e dei parametri del set di dati. Prima, il ridimensionamento RL non era davvero una cosa, poiché l’incremento delle dimensioni non offriva davvero grandi risultati. Ciò, naturalmente, limitava la capacità di questi modelli di migliorare.
Tuttavia, questi agenti pre-addestrati RL migliorano davvero con le dimensioni, che è una caratteristica estremamente promettente che potrebbe permetterci di creare robot sempre più potenti con molteplici capacità che potrebbero far parte delle nostre vite molto presto.
A questo punto, dobbiamo riconoscere che stiamo raggiungendo un punto di svolta per l’IA. L’intelligenza artificiale, già una realtà in molti modi nelle nostre vite, sta per diventare strumentale in molte delle nostre attività quotidiane. Tuttavia, i risultati e i progressi che stiamo vedendo sul campo sono notevoli, a velocità che creano preoccupazione poiché regolamenti e leggi stanno chiaramente perdendo rapidamente terreno.
Nel frattempo, la rivoluzione “pre-addestrata” sta arrivando a RL, e con essa, una grande varietà di casi d’uso, si spera, renderà l’IA un ottimo strumento per la robotica, l’automazione e probabilmente in altri campi in cui non siamo proprio consapevole di ancora.