Risolvere il problema della catena di pensiero dell’IA
Google ha introdotto la “catena del pensiero” per migliorare le capacità di ragionamento dei modelli linguistici.
Due anni fa, i professori della NYU Gary Marcus ed Ernest Davis hanno pubblicato un articolo sul MIT Technology Review su GPT-3. Gli autori hanno posto a GPT-3 una serie di domande per esporre la sua scarsa comprensione della realtà: “Ieri ho lasciato i miei vestiti in tintoria e devo ancora raccoglierli. Dove sono i miei vestiti?” GPT-3 ha risposto: “Ho molti vestiti”.
Chiaramente, i modelli linguistici di grandi dimensioni come GPT-3 non sono bravi nel ragionamento in più fasi. “Fondamentalmente, il linguaggio consiste nel mettere in relazione le frasi che senti, e sistemi come GPT-3 non lo fanno mai. Fornisci loro tutti i dati del mondo e non stanno ancora derivando l’idea che il linguaggio riguardi la semantica”, ha affermato Gary Marcus. Quindi la domanda è: come consentiamo ai modelli linguistici di svolgere compiti di ragionamento?
In un recente articolo, ” La catena del pensiero stimola il ragionamento nei modelli linguistici di grandi dimensioni “, Google ha introdotto la “catena del pensiero” per migliorare le capacità di ragionamento dei modelli linguistici. Il metodo consente ai modelli di scomporre i problemi a più fasi in fasi intermedie. La tecnica funziona su modelli linguistici con oltre 100 miliardi di parametri.
Oggi, modelli come GPT-3 utilizzano il metodo di prompt standard. Al modello vengono forniti esempi di input-output e viene chiesto di prevedere la risposta per un esempio di test-time. In confronto, la catena del pensiero spinge il modello a produrre fasi di ragionamento intermedie prima di dare la risposta finale a un problema a più fasi. La catena di pensiero generata dal modello cerca di imitare un processo di pensiero intuitivo. Inoltre, Google ha affermato che un processo di pensiero potrebbe essere suscitato includendo esempi della catena del pensiero tramite suggerimenti.
Il metodo
Nella catena del ragionamento di pensiero, i modelli scompongono problemi complessi in passaggi intermedi che vengono risolti individualmente e l’approccio è basato sul linguaggio. I ricercatori di Google hanno dimostrato che il metodo potrebbe migliorare le prestazioni su vari compiti di ragionamento.
Il metodo segue il modo in cui gli esseri umani deliberano naturalmente quando gli viene presentato un problema di ragionamento in più fasi. Google immagina che i modelli linguistici generino una catena coerente di pensiero in modo analogo prima di arrivare alla risposta. Ciò consente di migliorare le prestazioni in varie attività di ragionamento in cui la richiesta di suggerimenti standard è insufficiente e ottiene risultati migliori se combinata con modelli linguistici su larga scala.
La catena del pensiero che suggerisce:
1. Consente ai modelli di scomporre problemi a più fasi in fasi intermedie, consentendo di allocare calcoli aggiuntivi a problemi che richiedono più fasi di ragionamento.
2. Fornisce una finestra interpretabile sul comportamento del modello per capire come potrebbe essere arrivato a una risposta particolare. Ciò consente agli sviluppatori di eseguire il debug dove il percorso di ragionamento è andato storto
3. Funziona per problemi di parole matematiche, manipolazione simbolica e ragionamento di buon senso. In linea di principio, si applica a qualsiasi compito che gli esseri umani possono risolvere tramite il linguaggio.
4. Può essere facilmente elicitato in modelli linguistici pronti all’uso sufficientemente ampi, includendo esempi di sequenze di pensiero a catena negli esempi di suggerimenti a colpo ridotto.
Google ha testato la catena di pensiero sul suo Dialogue Applied Language Model (LaMDA) e sul Pathway Language Model ( PaLM ).
Il Pathways Language Model (PaLM) di Google è basato sull’architettura Pathways. Con Pathways, l’obiettivo finale di Google Research è creare un modello unico che possa generalizzare su domini e attività pur essendo altamente efficiente. PaLM ha ottenuto prestazioni all’avanguardia in centinaia di attività di comprensione e generazione della lingua.
Inoltre, il modello ha dimostrato eccezionali capacità di comprensione e generazione del linguaggio naturale su diverse attività BIG-bench.
LaMDA di Google mira a garantire un’esperienza di conversazione fluida e conversazioni più significative e vive. Il CEO di Alphabet, Sunder Pichai, ha detto di aver trascorso del tempo con suo figlio a conversare con LaMDA (mascherato da Plutone, il pianeta). È stato magico quando il modello parlava della navicella spaziale New Horizons e della freddezza dello spazio, ha aggiunto. Google ha affermato che l’architettura produce un modello che può essere addestrato per leggere molte parole, lavorare su come si relazionano tra loro e prevedere quale parola verrà dopo.
Prestazione
LaMDA e PaLM sono stati testati su due benchmark nel ragionamento aritmetico, MultiArith e GSM8K, per valutare la loro capacità di risolvere problemi matematici in più fasi. I ricercatori hanno escogitato catene di pensiero da includere negli esempi per la catena di suggerimenti di pensiero. Il metodo di suggerimento della catena di pensiero ha migliorato le prestazioni del modello, superando le prestazioni standard per i modelli di grandi dimensioni.
Google ha valutato i modelli sui benchmark CommonsenseQA e StrategyQA . Le prestazioni del modello sono migliorate con la scalabilità e la richiesta ha portato a piccoli miglioramenti. Ad esempio, alla domanda: la seguente frase è plausibile? “Joao Moutinho ha catturato il passaggio dello schermo nel campionato NFC”, ha risposto il modello- Joao Moutinho è un calciatore. Il campionato NFC fa parte del football americano, non del calcio. Quindi la risposta è no.
Ecco un altro esempio della catena di pensiero che richiede set di dati di ragionamento simbolico:
Q: Una moneta è testa a testa. Maybelle lancia la moneta. Shalonda non lancia la moneta. La moneta è ancora a testa alta? A: La moneta è stata lanciata da Maybelle. Quindi la moneta è stata lanciata 1 volta, che è un numero dispari. La moneta è partita testa a testa, quindi dopo un numero dispari di lanci, sarà croce su. Quindi la risposta è no.
Gli esperimenti di ragionamento aritmetico e di buon senso hanno portato i ricercatori a concludere che la catena di suggerimenti del pensiero è una proprietà emergente della scala del modello.