Gli LLM non hanno imparato la nostra lingua: stiamo cercando di imparare la loro
I modelli linguistici di grandi dimensioni (LLM) sono attualmente un’area rovente di ricerca nella comunità dell’intelligenza artificiale (AI). Il progresso scientifico negli LLM negli ultimi due anni è stato a dir poco impressionante e, allo stesso tempo, c’è un crescente interesse e slancio per creare piattaforme e prodotti basati sugli LLM .
Tuttavia, parallelamente ai progressi nel campo, sono diventate evidenti anche le carenze dei modelli linguistici di grandi dimensioni. Molti esperti concordano sul fatto che, indipendentemente da quanto grandi diventino gli LLM e i loro set di dati di formazione, non saranno mai in grado di imparare e comprendere la nostra lingua come facciamo noi.
È interessante notare che questi limiti hanno dato origine a una tendenza di ricerca incentrata sullo studio della conoscenza e del comportamento dei LLM. In altre parole, stiamo imparando il linguaggio degli LLM e scoprendo modi per comunicare meglio con loro.
Ciò che i LLM non possono imparare
Gli LLM sono reti neurali che sono state addestrate su centinaia di gigabyte di testo raccolti dal web. Durante la formazione, la rete viene alimentata con brani di testo che sono stati parzialmente mascherati. La rete neurale cerca di indovinare le parti mancanti e confronta le sue previsioni con il testo reale. In questo modo, regolando ripetutamente e gradualmente i suoi parametri, la rete neurale crea un modello matematico di come le parole appaiono una accanto all’altra e in sequenza.
Dopo essere stato addestrato, l’LLM può ricevere un messaggio e prevedere le parole che verranno dopo di esso. Più grande è la rete neurale, maggiore è la capacità di apprendimento del LLM. Più grande è il set di dati (dato che contiene testo ben curato e di alta qualità), maggiori sono le possibilità che il modello venga esposto a sequenze di parole diverse e più accurato diventa nella generazione del testo.
Tuttavia, il linguaggio umano è molto più di un semplice testo. In effetti, il linguaggio è un modo compresso per trasmettere informazioni da un cervello all’altro. Le nostre conversazioni spesso omettono la conoscenza condivisa, come le informazioni visive e udibili, l’esperienza fisica del mondo, le conversazioni passate, la nostra comprensione del comportamento di persone e oggetti, costrutti e norme sociali e molto altro.
Come Yann LeCun, vicepresidente e scienziato capo dell’intelligenza artificiale presso Meta e pluripremiato pioniere del deep learning, e Jacob Browning, un associato post-dottorato presso il Dipartimento di informatica della NYU, hanno scritto in un recente articolo : “Un sistema addestrato solo sulla lingua non potrà mai approssimativamente l’intelligenza umana, anche se addestrata da ora fino alla morte termica dell’universo.
I due scienziati notano, tuttavia, che gli LLM ” sembreranno senza dubbio approssimare [l’intelligenza umana] se rimaniamo in superficie. E, in molti casi, la superficie è sufficiente”.
ANNUNCIO
La chiave è capire quanto questa approssimazione sia vicina alla realtà e come assicurarsi che gli LLM rispondano nel modo in cui ci si aspetta che rispondano. Ecco alcune direzioni di ricerca che stanno plasmando questo angolo del panorama LLM in espansione.
Insegnare agli LLM ad esprimere l’incertezza
Nella maggior parte dei casi, gli esseri umani conoscono i limiti della loro conoscenza (anche se non lo ammettono direttamente). Possono esprimere incertezza e dubbio e far sapere ai loro interlocutori quanto sono fiduciosi nella consapevolezza che stanno passando. D’altra parte, gli LLM hanno sempre una risposta pronta per qualsiasi richiesta, anche se il loro output non ha senso. Le reti neurali di solito forniscono valori numerici che rappresentano la probabilità che una certa previsione sia corretta. Ma per i modelli linguistici, questi punteggi di probabilità non rappresentano la fiducia dell’LLM nell’affidabilità della sua risposta a un prompt.
Un recente articolo dei ricercatori di OpenAI e dell’Università di Oxford mostra come si possa rimediare a questa mancanza insegnando ai LLM “ad esprimere la loro incertezza a parole”.
Dimostrano che gli LLM possono essere messi a punto per esprimere l’incertezza epistemica usando il linguaggio naturale , che descrivono come “probabilità verbalizzata”. Questa è un’importante direzione di sviluppo, specialmente nelle applicazioni in cui gli utenti vogliono trasformare l’output LLM in azioni.
I ricercatori suggeriscono che esprimere incertezza può rendere onesti i modelli linguistici. “Se un modello onesto ha uno stato interno disinformato o maligno, allora potrebbe comunicare questo stato agli esseri umani che possono agire di conseguenza”, scrivono.
Alla scoperta delle abilità emergenti degli LLM
La scala è stata un fattore importante nel successo dei modelli linguistici. Man mano che i modelli diventano più grandi, non solo le loro prestazioni migliorano rispetto ai compiti esistenti, ma acquisiscono la capacità di apprendere ed eseguire nuovi compiti.
In un nuovo articolo, i ricercatori di Google, della Stanford University, di DeepMind e dell’Università della Carolina del Nord a Chapel Hill hanno esplorato le “capacità emergenti” degli LLM , che definiscono come abilità che “non sono presenti nei modelli più piccoli ma sono presenti in modelli più grandi”.
L’emergenza è caratterizzata dal modello che manifesta prestazioni casuali su un determinato compito fino a raggiungere una certa soglia di scala, dopodiché le sue prestazioni saltano improvvisamente e continuano a migliorare man mano che il modello diventa più grande.
Il documento copre le abilità emergenti in diverse famiglie LLM popolari, tra cui GPT-3 , LaMDA, Gopher e PaLM. Lo studio delle abilità emergenti è importante perché fornisce informazioni sui limiti dei modelli linguistici a diverse scale. Può anche aiutare a trovare modi per migliorare le capacità dei modelli più piccoli e meno costosi.
Esplorare i limiti dei LLM nel ragionamento
Data la capacità dei LLM di generare articoli, scrivere codice software e tenere conversazioni sulla sensibilità e sulla vita , è facile pensare che possano ragionare e pianificare cose come gli esseri umani.
Ma uno studio condotto da ricercatori dell’Arizona State University, a Tempe, mostra che gli LLM non acquisiscono le conoscenze e le funzioni alla base dei compiti che richiedono il pensiero metodico e la pianificazione , anche quando si comportano bene su benchmark progettati per ragionamenti logici, etici e di buon senso.
Lo studio mostra che ciò che sembra pianificazione e ragionamento negli LLM è, in realtà, capacità di riconoscimento dei modelli acquisite dall’esposizione continua alla stessa sequenza di eventi e decisioni. Questo è simile al modo in cui gli esseri umani acquisiscono alcune abilità (come guidare), dove prima richiedono un pensiero attento e un coordinamento di azioni e decisioni, ma gradualmente diventano in grado di eseguirle senza pensare attivamente.
I ricercatori hanno stabilito un nuovo benchmark che mette alla prova le capacità di ragionamento su compiti che si estendono su lunghe sequenze e non possono essere ingannati attraverso trucchi di riconoscimento di schemi. L’obiettivo del benchmark è stabilire l’attuale linea di base e aprire nuove finestre per lo sviluppo di capacità di pianificazione e ragionamento per gli attuali sistemi di IA.
Guidare gli LLM con prompt migliori
Man mano che i limiti degli LLM diventano noti, i ricercatori trovano il modo di estenderli o aggirarli. A questo proposito, un’area di ricerca interessante è la “prompt engineering”, una serie di trucchi che possono migliorare le prestazioni dei modelli linguistici su compiti specifici. L’ingegneria dei prompt guida gli LLM includendo esempi risolti o altri segnali nei prompt.
Una di queste tecniche è il ” chain-of-thinking prompting ” (CoT), che aiuta il modello a risolvere problemi logici fornendo un prompt che include un esempio risolto con passaggi di ragionamento intermedi. Il prompt CoT non solo migliora le capacità degli LLM di risolvere compiti di ragionamento, ma li porta anche a produrre i passaggi che devono affrontare per risolvere ogni problema. Ciò aiuta i ricercatori a ottenere informazioni dettagliate sul processo di ragionamento (o sulla parvenza di ragionamento) degli LLM.
Una tecnica più recente che si basa sul successo di CoT è la “proposta catena di pensieri zero-shot “, che utilizza frasi trigger speciali come “Pensiamo passo dopo passo” per invocare il ragionamento nei LLM. Il vantaggio di CoT zero-shot non richiede all’utente di creare un prompt speciale per ogni attività e, sebbene sia semplice, in molti casi funziona comunque abbastanza bene.
Questi e altri lavori di ricerca simili mostrano che abbiamo ancora molto da imparare sugli LLM e potrebbero esserci altre cose da scoprire sui modelli linguistici che hanno catturato il nostro fascino negli ultimi anni.