ARA di AI21 è migliore di GPT-3?

Se un uccello non avesse le ali, come ne risentirebbe? Macaw: Non sarebbe in grado di volare GPT-3: Sarebbe un uccello cattivo.

Con un dito nel sogno di AGI, GPT-3 è diventato un punto di riferimento per i modelli di elaborazione del linguaggio naturale. DALL E di OpenAI, Jurassic-1 di AI21, LaMDA di Google, Turing NLG di Microsoft e Wu Dao 2.0 di BAAI sono i successori di GPT-3, considerati equivalenti o addirittura migliori del modello popolare. Inoltre, AI2 ha appena rilasciato una versione aggiornata del suo modello open source di risposta alle domande, Macaw, dichiarando che supera GPT-3.

Tutto su Ara

Macaw è un modello QA basato su un approccio multi-angolo che sfrutta diverse combinazioni di input e output per ottenere i risultati. Ha affrontato con successo vari tipi di domande, tra cui conoscenza generale, meta ragionamento, ipotetico e comprensione della storia. Allontanandosi dalla tradizionale dipendenza da un database strutturato per trovare risposte, Macaw si basa su modelli pre-addestrati per una migliore versatilità. Instillare il modello con diverse permutazioni ne migliora le prestazioni su attività diverse rendendolo più flessibile.

Macaw utilizza una combinazione di “slot” come input e output. Gli slot sono Contesto, Domanda, Opzioni a scelta multipla, Risposta e Spiegazione. Quindi, utilizza diversi “angoli” o combinazioni di questi slot per generare output diversi e precisi. L’ articolo di Macaw lo spiega come uno che “produce risposte di alta qualità a domande molto al di fuori del dominio su cui è stato addestrato” e “genera spiegazioni come elemento di output (o addirittura input) opzionale”. Naturalmente, queste spiegazioni tendono ad essere di qualità inferiore rispetto alle risposte, ma è uno dei pochi modelli in grado di farlo.

Ara contro GPT-3

Macaw è stato addestrato su 11 miliardi di parametri. Questo è in confronto a GPT-3, che ha 175 miliardi, Jurassic-1 su 178 miliardi, Pang Gu Alpha su 200 miliardi e Wu Dao 2.0 su 1,75 trilioni. Tuttavia, AI2 afferma nonostante la minore grandezza dei parametri di Macaw; ha superato GPT-3 di oltre il 10% su una suite di 300 domande di sfida.

AI2 ha creato una serie di 300 sfide per fermare il sistema e confrontare le sue prestazioni con i modelli esistenti. Macaw ha ottenuto il 75%, mentre GPT-3 e Jurassic-1 hanno ottenuto il 65% e T5-CBQA di Google ha ottenuto il 57%. Di seguito sono illustrati alcuni esempi di come GPT-3 e Macaw hanno risposto alle domande ( leggi di più qui ).

Come rafforzeresti un matrimonio?
Macaw: Comunicare
GPT-3: Mi assicurerei di avere sempre ragione io.

Se un uccello non avesse le ali, come ne risentirebbe?
Macaw: Non sarebbe in grado di volare
GPT-3: Sarebbe un uccello cattivo.

Solo per Macaw, il team ha dimostrato le sue capacità di ragionamento, buon senso, confronto, falsi presupposti, meta ragionamento, ipotesi e capacità di sostituzione di entità attraverso esempi. Ad esempio, ha fornito risposte corrette quando sono state poste domande diverse dal suono simile.

D: Se la mia casa non avesse un tetto e piovesse, cosa accadrebbe al mio letto al piano di sopra?

A: si bagnerebbe

D: Se la mia casa avesse un tetto e piovesse, cosa accadrebbe al mio letto al piano di sopra?

R: Rimarrebbe asciutto

In alternativa, il modello è debole nelle lotte di tracciamento delle entità con storie su uno stato mondiale in cambiamento. Ad esempio,

D: La mia casa è rossa. Ho dipinto la mia casa di bianco. Di che colore è la mia casa adesso?

A: ora è bianco [corretto]

D: La mia casa è blu. Ho dipinto la mia casa di rosso. Di che colore era la mia casa prima di dipingerla?

A: blu [corretto]

D: La mia casa è rossa. La casa del mio vicino è blu. Ho dipinto la mia casa di bianco. Di che colore è la mia casa adesso?

A: è dello stesso colore della casa del mio vicino [sbagliato]

D: La mia casa è rossa. Ho dipinto di bianco la casa del mio vicino. Di che colore è la mia casa adesso? A: metà rosso, metà bianco [sbagliato]

La maggior parte dei modelli ha ottenuto un punteggio elevato nelle domande di cultura generale e il punteggio più basso per quanto riguarda il buon senso e le domande trabocchetto. Il gruppo ha riscontrato che GPT-3 e T5-CBQA hanno prodotto risposte impressionanti ad alcune domande, ma hanno commesso più errori di Macaw. Un esempio discusso è “Quando Tom Hanks è atterrato sulla luna?” GPT-3 ha detto 1995 basato sul film Apollo 13. Macaw ha notato che Tom Hanks non è mai stato sulla luna per quanto ne sappiamo.

Disponibilità GPT-3

Il dottor Oren Etzioni, amministratore delegato di AI2, ha notato che Makaw non dovrebbe sostituire il GPT-3 ma è un nuovo passo nella ricerca della PNL. GPT-3 è un modello di NLP straordinario, ma è fuori dalla portata di molte organizzazioni date le sue enormi dimensioni e tariffe. D’altra parte, Macaw è orientato alla creazione di sistemi di intelligenza artificiale in grado di leggere, ragionare e spiegare le loro risposte.

Etzioni ha parlato di come GPT-3 sia fantastico in un’intervista con TechCrunch, ma è uscito solo 18 mesi fa e l’accesso è limitato. E sebbene abbia capacità notevoli, puoi fare di più con meno. “A volte devi costruire qualcosa con 175 miliardi di parametri per dire, beh, forse possiamo farlo con 10 miliardi”, ha detto .

Il costo del sogno GPT-3

I modelli su larga scala saranno utili, ma i modelli più piccoli hanno maggiori possibilità di essere implementati nei casi quotidiani. Nel recente incarico del consiglio di AIM, Padmashree Shagrithaya , Global Head of Analytics and Data Science di Capgemini, ha discusso l’impatto di modelli NLP così grandi. Ha illustrato il costo ambientale di GPT-3 attraverso esempi. “Un sistema di elaborazione del linguaggio AI genera ovunque tra 1.400 e 78.000 libbre di emissione. Ciò equivale a 125 voli di andata e ritorno tra New York e Pechino”. Inoltre, ” Carbontracker ha suggerito che addestrare GPT-3 solo una volta richiede la stessa quantità di energia utilizzata da 126 case in Danimarca ogni anno. È anche lo stesso che guidare un’auto sulla luna e ritorno”.

“Sebbene l’innovazione sia la base su cui una società avanza, dobbiamo anche essere consapevoli del costo che tale ‘innovazione’ comporta. La necessità del momento è trovare un equilibrio tra i due”, ha concluso. Un modello più piccolo ma ugualmente efficace come Macaw potrebbe aiutare a creare questo equilibrio.

ARA di AI21 è migliore di GPT-3?

Diihal

Di ihal

Articoli correlati

Adobe Firefly AI trasforma la produzione video con suoni personalizzati

Naver Place introduce la ricerca visiva AI dei luoghi

Loveable, l’unicorno europeo del vibe coding

You missed

Adobe Firefly AI trasforma la produzione video con suoni personalizzati

Naver Place introduce la ricerca visiva AI dei luoghi

Loveable, l’unicorno europeo del vibe coding

Claude Code di Anthropic: restrizioni inaspettate e confusione tra gli utenti