I sistemi che consumano grandi quantità di creazioni umane per emulare i nostri comportamenti stanno spingendo in avanti l’avanguardia nell’IA. Dall-E e Stable Diffusion hanno imparato a generare immagini dai prompt, permettendoci di visualizzare le interpretazioni dei supereroi come Renoir avrebbe potuto dipingerli.
I modelli di linguaggio di grandi dimensioni (LLM) eseguono un trucco simile con il linguaggio, pompando comunicati stampa realistici o revisioni del codice eseguite da un pirata. L’iterazione più recente, ChatGPT, ha attirato un’attenzione immensa poiché le persone hanno esplorato l’estensione delle sue capacità in variazioni infinitamente divertenti.
Quindi, cosa significa tutto questo per il progresso verso la vera IA? È questo il vero affare? Un passo indietro rispetto a quello? O un semplice pappagallo, i nostri artefatti umani si sono semplicemente riflessi su di noi attraverso lo specchio del codice?
Ciò che quest’ultima classe di algoritmi dimostra chiaramente è una comprensione combinatoria dei concetti. Quando gli viene chiesto di spiegare gli algoritmi informatici come un saggio di un film di gangster degli anni ’40, ChatGPT svolge entrambi i compiti. Possiamo variare il personaggio con cui parla o l’argomento di cui vogliamo che parli.
Non tutte le rime e i metri hanno funzionato – ricorda che GPT non ha mai sentito un suono ma ha dedotto questi concetti dalla previsione delle parole nelle frasi – ma ha chiaramente cercato di costruire il pentametro giambico e seguire lo schema di rima appropriato. È rimasto in tema. È stato scritto poeticamente.
Possiamo indicare le molte poesie che hanno alimentato GPT-3 e mettere in discussione ciò che è veramente nuovo nella sua produzione. Ma se gli elementi costitutivi sono noti, le intersezioni sono uniche e nuove. E mettere insieme elementi costitutivi noti in nuovi modelli è un’abilità cognitiva avvincente.
Sebbene i volumi di dati di addestramento coinvolti siano enormi, le regolarità sono state tutte scoperte da queste reti: le regole dei sonetti e dei limerick, le stranezze linguistiche etc.. I programmatori non hanno generato attentamente set di addestramento per ogni attività. I modelli hanno trovato le regole in modo indipendente.
Dove manca GPT-3? Quando imita un pirata, non aggiunge nuove sfumature al ruolo. GPT-3 è stato addestrato sull’approssimazione delle parole più probabili nelle frasi. Possiamo spingerlo verso risultati più casuali – non il più probabile ma il quinto più probabile – ma segue fortemente la scia di ciò che è stato detto ripetutamente.
Può spiegare bene compiti noti ma fa fatica a dare nuovi suggerimenti e soluzioni. Manca di obiettivi, del proprio slancio. Manca una distinzione significativa tra ciò che è vero e una cosa probabile da dire. Non ha memoria a lungo termine: generare un articolo è possibile, ma un libro non si adatta al suo contesto.
Ad ogni nuovo fattore di scala dei modelli linguistici e ad ogni documento di ricerca fresco di stampa, osserviamo una comprensione più sfumata del linguaggio. I suoi risultati diventano più vari e le sue capacità più estese. Usa il linguaggio in domini sempre più oscuri e tecnici. Ma i limiti e la tendenza alla banalità persistono.
Osservando la comprensione dei pronomi da parte di GPT in situazioni semanticamente ambigue, il suo senso dell’umorismo o le sue complesse strutture di frasi, suppongo che anche la versione attuale sia sufficiente per la comprensione generale del linguaggio. Ma c’è qualche altro algoritmo non ancora inventato, o almeno una particolare combinazione di algoritmi esistenti e compiti di addestramento che sono necessari per avvicinarsi all’intelligenza reale.
Per tornare al suggerimento iniziale: che si tratti della meraviglia non scientifica nel vedere un sonetto shakespeariano emergere dalla polvere di semplici compiti di predizione di parole, o della costante erosione del divario umano in una miriade di compiti per scandagliare la profondità della comprensione artificiale del linguaggio, il linguaggio i modelli in uso oggi non sono solo un trucco da salotto. Questi processi non si limitano a ripetere a pappagallo il linguaggio umano, ma trovano i modelli significativi al suo interno, siano essi sintattici, semantici o pragmatici.
Quindi no, le vere IA non sono ancora arrivate. Ma siamo significativamente più vicini di quanto non fossimo prima, e prevedo che quando accadrà, alcune variazioni dell’auto-attenzione e dell’apprendimento contrastivo saranno una parte significativa di quella soluzione.