Nel mezzo dell’acceso dibattito sull’intelligenza artificiale , le macchine coscienti e l’intelligenza artificiale generale, Yann LeCun, scienziato capo dell’intelligenza artificiale presso Meta, ha pubblicato un progetto per la creazione di “intelligenza artificiale autonoma”.
LeCun ha raccolto le sue idee in un documento che trae ispirazione dai progressi nell’apprendimento automatico, nella robotica, nelle neuroscienze e nelle scienze cognitive. Delinea una tabella di marcia per la creazione di un’intelligenza artificiale in grado di modellare e comprendere il mondo, ragionare e pianificare per svolgere attività su scale temporali diverse.
Osservazioni di apertura – Matt Marshall 1
Sebbene il documento non sia un documento accademico, fornisce un quadro molto interessante per pensare ai diversi pezzi necessari per replicare l’intelligenza animale e umana. Mostra anche come è cambiata la mentalità di LeCun, un pluripremiato pioniere del deep learning e perché pensa che gli attuali approcci all’IA non ci porteranno all’IA a livello umano.
Una struttura modulare
Uno degli elementi più importanti della visione di LeCun è una struttura modulare di diversi componenti ispirati a varie parti del cervello. Questa è una rottura rispetto all’approccio popolare nell’apprendimento profondo, in cui un singolo modello viene addestrato end-to-end.
Al centro dell’architettura c’è un modello mondiale che prevede gli stati del mondo. Sebbene la modellazione del mondo sia stata discussa e tentata in diverse architetture di intelligenza artificiale, sono specifiche per attività e non possono essere adattate a attività diverse. LeCun suggerisce che, come gli esseri umani e gli animali, i sistemi autonomi devono avere un unico modello mondiale flessibile.
“Un’ipotesi in questo articolo è che gli animali e gli esseri umani abbiano un solo motore modello mondiale da qualche parte nella loro corteccia prefrontale”, scrive LeCun. “Quel motore modello mondiale è configurabile dinamicamente per l’attività in corso. Con un unico motore del modello mondiale configurabile, anziché un modello separato per ogni situazione, le conoscenze su come funziona il mondo possono essere condivise tra le attività. Ciò può consentire di ragionare per analogia, applicando il modello configurato per una situazione a un’altra situazione.
Architettura proposta da LeCun per macchine autonome
Il modello mondiale è completato da molti altri moduli che aiutano l’agente a comprendere il mondo e intraprendere azioni pertinenti ai suoi obiettivi. Il modulo “percezione” svolge il ruolo del sistema sensoriale animale, raccogliendo informazioni dal mondo e stimando il suo stato attuale con l’aiuto del modello mondiale. A questo proposito, il modello del mondo svolge due compiti importanti: in primo luogo, riempie le informazioni mancanti nel modulo di percezione (ad esempio, oggetti occlusi) e in secondo luogo, predice gli stati futuri plausibili del mondo (ad esempio, dove sarà il palla volante sia nel passaggio temporale successivo).
Il modulo “costo” valuta il “disagio” dell’agente, misurato in energia. L’agente deve intraprendere azioni che riducano il suo disagio. Alcuni dei costi sono cablati o “costi intrinseci”. Ad esempio, negli esseri umani e negli animali, questi costi sarebbero la fame, la sete, il dolore e la paura. Un altro sottomodulo è il “critico addestrabile”, il cui obiettivo è ridurre i costi per il raggiungimento di un obiettivo particolare, come la navigazione verso una posizione, la costruzione di uno strumento, ecc.
Il modulo “memoria a breve termine” memorizza informazioni rilevanti sugli stati del mondo nel tempo e il corrispondente valore del costo intrinseco. La memoria a breve termine svolge un ruolo importante nell’aiutare il modello mondiale a funzionare correttamente e fare previsioni accurate.
Il modulo “attore” trasforma le previsioni in azioni specifiche. Ottiene il suo input da tutti gli altri moduli e controlla il comportamento esterno dell’agente.
Infine, un modulo “configuratore” si occupa del controllo esecutivo, adeguando tutti gli altri moduli, compreso il modello mondiale, allo specifico compito che vuole svolgere. Questo è il modulo chiave che assicura che una singola architettura possa gestire molte attività diverse. Regola il modello di percezione, il modello mondiale, la funzione di costo e le azioni dell’agente in base all’obiettivo che desidera raggiungere. Ad esempio, se stai cercando uno strumento per conficcare un chiodo, il tuo modulo di percezione dovrebbe essere configurato per cercare oggetti pesanti e solidi, il tuo modulo attore deve pianificare azioni per raccogliere il martello improvvisato e usarlo per guidare il chiodo e il tuo modulo di costo deve essere in grado di calcolare se l’oggetto è maneggevole e abbastanza vicino o se dovresti cercare qualcos’altro a portata di mano.
È interessante notare che, nella sua proposta di architettura, LeCun considera due modalità operative, ispirate alla dicotomia “ Pensare veloce e lenta ” di Daniel Kahneman. L’agente autonomo dovrebbe avere un modello operativo “Modo 1”, un comportamento veloce e riflessivo che colleghi direttamente le percezioni alle azioni e un modello operativo “Modo 2”, che sia più lento e più coinvolto e utilizzi il modello del mondo e altri moduli per ragionare e pianificare.
Apprendimento autocontrollato
Sebbene l’architettura proposta da LeCun sia interessante, la sua implementazione pone diverse grandi sfide. Tra questi c’è la formazione di tutti i moduli per svolgere i loro compiti. Nel suo articolo, LeCun fa ampio uso dei termini “differenziabile”, “basato sul gradiente” e “ottimizzazione”, che indicano tutti che crede che l’architettura sarà basata su una serie di modelli di apprendimento profondo in contrapposizione ai sistemi simbolici in cui la conoscenza è stata incorporata in anticipo dagli esseri umani.
LeCun è un sostenitore dell’apprendimento autonomo , un concetto di cui parla da diversi anni. Uno dei principali colli di bottiglia di molte applicazioni di deep learning è la loro necessità di esempi con annotazioni umane, motivo per cui sono chiamati modelli di “apprendimento supervisionato”. L’etichettatura dei dati non è scalabile ed è lenta e costosa.
D’altra parte, i modelli di apprendimento non supervisionato e autosupervisionato apprendono osservando e analizzando i dati senza la necessità di etichette. Attraverso l’auto-supervisione, i bambini umani acquisiscono la conoscenza del buon senso del mondo, inclusa la gravità, la dimensionalità e la profondità, la persistenza degli oggetti e persino cose come le relazioni sociali. I sistemi autonomi dovrebbero anche essere in grado di apprendere da soli.
Gli ultimi anni hanno visto alcuni importanti progressi nell’apprendimento non supervisionato e nell’apprendimento autosupervisionato, principalmente nei modelli di trasformazione , l’architettura di apprendimento profondo utilizzata nei modelli linguistici di grandi dimensioni. I trasformatori apprendono le relazioni statistiche delle parole mascherando parti di un testo noto e cercando di prevedere la parte mancante.
Una delle forme più popolari di apprendimento auto-supervisionato è ” l’apprendimento contrastante “, in cui a un modello viene insegnato ad apprendere le caratteristiche latenti delle immagini attraverso il mascheramento, l’aumento e l’esposizione a diverse pose dello stesso oggetto.
Tuttavia, LeCun propone un diverso tipo di apprendimento auto-supervisionato, che descrive come “modelli basati sull’energia”. Gli EBM cercano di codificare dati ad alta dimensione come le immagini in spazi di incorporamento a bassa dimensione che conservano solo le caratteristiche rilevanti. In questo modo, possono calcolare se due osservazioni sono correlate tra loro o meno.
Nel suo articolo, LeCun propone la “Joint Embedding Predictive Architecture” (JEPA), un modello che utilizza l’EBM per catturare le dipendenze tra diverse osservazioni.
Architettura predittiva di incorporamento articolare (JEPA)
“Un notevole vantaggio di JEPA è che può scegliere di ignorare i dettagli che non sono facilmente prevedibili “, scrive LeCun. Fondamentalmente, ciò significa che invece di cercare di prevedere lo stato mondiale a livello di pixel, JEPA prevede le caratteristiche latenti e di bassa dimensione che sono rilevanti per l’attività in corso.
Nel documento, LeCun discute ulteriormente della JEPA gerarchica (H-JEPA), un piano per impilare i modelli JEPA uno sopra l’altro per gestire il ragionamento e la pianificazione su scale temporali diverse.
“La capacità di JEPA di apprendere le astrazioni suggerisce un’estensione dell’architettura per gestire la previsione su più scale temporali e più livelli di astrazione”, scrive LeCun. “Intuitivamente, le rappresentazioni di basso livello contengono molti dettagli sull’input e possono essere utilizzate per prevedere a breve termine. Ma potrebbe essere difficile produrre previsioni accurate a lungo termine con lo stesso livello di dettaglio. Al contrario, una rappresentazione astratta di alto livello può consentire previsioni a lungo termine, ma a costo di eliminare molti dettagli”.
Architettura predittiva di incorporamento articolare gerarchico (H-JEPA)
La strada degli agenti autonomi
Nel suo articolo, LeCun ammette che molte cose rimangono senza risposta, inclusa la configurazione dei modelli per apprendere le caratteristiche latenti ottimali e un’architettura e una funzione precise per il modulo di memoria a breve termine e le sue convinzioni sul mondo. LeCun afferma anche che il modulo di configurazione rimane ancora un mistero e che è necessario fare più lavoro per farlo funzionare correttamente.
Ma LeCun afferma chiaramente che le attuali proposte per raggiungere l’IA a livello umano non funzioneranno. Ad esempio, un argomento che ha guadagnato molto terreno negli ultimi mesi è quello di “è tutta una questione di scala”. Alcuni scienziati suggeriscono che ridimensionando i modelli di trasformatore con più livelli e parametri e addestrandoli su set di dati più grandi, alla fine raggiungeremo l’intelligenza artificiale generale.
LeCun confuta questa teoria, sostenendo che LLM e trasformatori funzionano purché siano addestrati su valori discreti.
“Questo approccio non funziona per modalità continue ad alta dimensione, come il video. Per rappresentare tali dati, è necessario eliminare le informazioni irrilevanti sulla variabile da modellare attraverso un codificatore, come nella JEPA”, scrive.
Un’altra teoria è ” la ricompensa è sufficiente “, proposta dagli scienziati di DeepMind. Secondo questa teoria, la giusta funzione di ricompensa e il corretto algoritmo di apprendimento per rinforzo sono tutto ciò che serve per creare un’intelligenza artificiale generale.
Ma LeCun sostiene che mentre RL richiede all’agente di interagire costantemente con il suo ambiente, gran parte dell’apprendimento che gli esseri umani e gli animali fanno avviene attraverso la pura percezione.
LeCun confuta anche l’approccio ibrido ” neuro-simbolico “, affermando che il modello probabilmente non avrà bisogno di meccanismi espliciti per la manipolazione dei simboli e descrive il ragionamento come “minimizzazione dell’energia o soddisfazione dei vincoli da parte dell’attore che utilizza vari metodi di ricerca per trovare una combinazione adeguata di azioni e variabili latenti”.
Molto altro deve accadere prima che il progetto di LeCun diventi realtà. “È fondamentalmente ciò su cui ho intenzione di lavorare, e ciò su cui spero di ispirare gli altri a lavorare, nel prossimo decennio”, ha scritto su Facebook dopo aver pubblicato il documento.