Bloccato nella lista d’attesa di GPT-3? Prova l’AI21 Jurassic-1 

 
Nel gennaio 2020, OpenAI ha definito la legge di scala dei modelli linguistici: puoi migliorare le prestazioni di qualsiasi modello di linguaggio neurale aggiungendo più dati di addestramento, più parametri del modello e più calcolo. Da allora, c’è stata una corsa agli armamenti per addestrare reti neurali sempre più grandi per l’elaborazione del linguaggio naturale (PNL). E l’ultimo ad unirsi alla lista è AI21 con il suo modello di parametri da 178 miliardi .

 AI21 e team fondatore
AI21 è un’azienda israeliana fondata nel 2017 da Yoav Shoham, Ori Goshen e Amnon Sashua. Prima di questo, Amnon ha fondato Mobileye, la società tecnologica di guida autonoma quotata al NYSE che Intel ha acquisito per 15,4 miliardi di dollari. Dopo essere stato nascosto per anni, AI21 ha lanciato il suo primo prodotto, Wordtune, nel 2020 per aiutare le persone a scrivere meglio.

 
Il mese scorso, la società ha annunciato di aver addestrato e rilasciato due grandi modelli NLP, Jurassic-1 Large e Jurrasic-1 Jumbo, tramite un’interfaccia web interattiva chiamata AI21 Studio.

In contrasto con l’accesso alla beta chiusa di OpenAI, AI21 rende i suoi modelli disponibili per chiunque possa provarli, senza alcuna lista d’attesa.

Dimensioni del modello e benchmark delle prestazioni
Esistono modelli più grandi, come il cinese Wu Dao 2.0, che è 10 volte più grande, con 1,75 trilioni di parametri. Ma il J-1 Jumbo di AI21 è il più grande modello in lingua inglese disponibile finora al grande pubblico.

 

Le prestazioni del modello zero-shot sui benchmark noti per J-1 Jumbo sono alla pari con GPT-3 Davinci, il più grande modello OpenAI GPT-3 . “Zero-shot” è quando al modello non viene fornito alcun prompt speciale e non è regolato con precisione su alcun tipo di dati di addestramento specifici per l’attività. Didascalia: confronto benchmark zero-shot come riportato da AI21 .

Esempi
In un articolo precedente, ho esaminato una serie di esempi per mostrare le prestazioni del mondo reale di GPT-Neo. Esaminiamo le prestazioni dei modelli di AI21 nella pratica reale.

 
Completamento di fatto. Iniziamo ponendo a Jurassic-1 alcune domande di base di conoscenza generale. I miei suggerimenti per il modello sono indicati in corsivo e la risposta del modello in grassetto .

Quante medaglie hanno vinto gli USA alle Olimpiadi del 2012? 104 
##
Quanti ori hanno vinto gli USA alle Olimpiadi del 2016? 46 
##

Questa è la risposta corretta!

Cosa si è distinto:

Il modello è abbastanza intelligente da capire cosa intendiamo per “oro” nella domanda, mentre il prompt parlava di medaglie.
J-1 Jumbo 178B ha ragione, ma J-1 Large 7.5B no!
Provare la stessa domanda con le Olimpiadi del 2021 non funziona (probabilmente perché il modello non viene continuamente addestrato con dati freschi).
Rischio neurale! Facendo un ulteriore passo avanti, che ne dici di una finestra di dialogo domanda-risposta in stile Jeopardy. Grazie alla brava gente di Water Cooler Trivia (WCT), abbiamo già un set di domande e risposte, un benchmark umano e un benchmark per GPT-3.

Passando attraverso le 157 domande WCT in stile Jeopardy, il modello J-1 Jumbo è stato in grado di rispondere con una precisione del 55,4%. Ciò si confronta favorevolmente con la media del 52% degli umani che avevano preso il WCT. Tuttavia, è significativamente peggiore del tasso di precisione del 73% del GPT-3.

 
Sulle domande “facili”, J-1 Jumbo ha fatto tre volte peggio di GPT-3. Tra le 58 domande che il 90% dei partecipanti umani ha risposto correttamente, GPT-3 ha sbagliato 4 volte, ma J-1 ha sbagliato 12 volte.

Ecco alcune delle domande che GPT-3 ha avuto ragione ma Jurassic-1 Jumbo no:

D: Originariamente si chiamavano Baby Gays. Quindi sono stati rinominati come Q-Tips, con la Q che sta per quale parola relativa a standard elevati?
GPT-3: Qualità
AI21: Quarti

D: Sebbene la canzone più popolare nella colonna sonora del film sia “This Is Halloween” e il nome del personaggio principale sia Jack Skellington, il film cult di Tim Burton del 1993 che è stato nominato per un Oscar per gli effetti visivi include ciò che ALTRE festività nel titolo del film ?
GPT-3: L’incubo prima di Natale
AI21: SLEEPY HOLLOW. Il film del 1999, con Johnny Depp, Christina Ricci, Miranda Richardson, Casper

Man mano che le domande diventavano più difficili, entrambi i modelli si comportavano in modo simile. Tra le 20 domande più difficili, GPT3 ha sbagliato 13 volte e Jurassic-1 14 volte. E nove delle risposte errate di entrambi i modelli erano le stesse, ovvero i modelli erano sbagliati allo stesso modo!

D: Spoonerismo: due coppie di parole con i primi suoni o lettere scambiate, come corvo arrossato e colpo schiacciante. Quale cucchiaio descrive questi due oggetti? Un animale finto e un pasto abbondante cotto al forno.
GPT-3: un animale finto e un pasto abbondante cotto in forno.
AI21: (1) Un animale finto e un pasto abbondante cotto in un forno. (2) Un’anima finta
Risposta corretta: bestia finta

 
D: Mario Lopez ha ospitato le prime sette stagioni di quale spettacolo di competizione di danza dal 2008 al 2012?
GPT-3: Ballando con le stelle
AI21: Ballando con le stelle.
Risposta corretta: la migliore crew di ballo d’America

Il modello J-1 a volte pensava di essere in uno spettacolo di giochi, portando a completamenti esilaranti che si adattavano perfettamente a una sceneggiatura di uno spettacolo di giochi. (Ha sbagliato la seconda risposta dopo il rullo di tamburi):

D: Quale gioco di carte “tipo spargimento” è stato un marchio Mattel dal 1992 e presenta carte con titoli come “Wild” e “Reverse?
AI21: ONU! ONU! ONU! ONU! ONU! ONU! ONU!
Risposta corretta: Uno

D: Nell’ultima versione di Rolling Stone dei più grandi chitarristi di tutti i tempi, il numero 5 era un uomo con un nome e un cognome monosillabici. Quest’uomo era uno dei tre chitarristi degli Yardbirds e ha trascorso decenni esplorando suoni di chitarra innovativi. Chi è lui?
A21: (Rullo di tamburi, per favore) Eric Clapton
Risposta corretta: Jeff Beck

Possibile motivo della sottoperformance di J1-Jumbo
Ho eseguito alcune modifiche dell’esperimento (alcune con i prompt di domande e risposte di GPT-3 e altre senza) e i migliori benchmark di punteggio per J1-Jumbo provenivano da un’impostazione “zero-shot”. Tuttavia, i numeri GPT-3 riportati qui provengono da un’impostazione “pochi scatti” con un prompt di esempio fornito da OpenAI.

 
“Zero-shot” è quando al modello non viene fornito alcun prompt speciale e “few-shot” è quando viene fornito un prompt di esempio al modello che mostra l’attività. Un esempio di prompt in questo caso sarebbe un gruppo di coppie di domande/risposte casuali. Questo aiuta il modello a comprendere il compito che sta cercando di eseguire, ad esempio rispondere alla domanda.

Il prompt di domande e risposte utilizzato per il benchmark GPT-3 è stato probabilmente ottimizzato e progettato per prestazioni ottimali con i modelli di GPT-3, ma non esiste ancora un prompt sintonizzato “ufficiale” simile per i modelli di AI21. Progettare un prompt in grado di competere con il benchmark GPT-3 non sembra un compito banale. Ho osservato che l’output generato era sensibile a modifiche apparentemente banali al testo del prompt, come una riga vuota all’inizio del prompt o uno spazio extra alla fine di ogni riga del prompt. Si spera che AI21 pubblichi una serie esaustiva di prompt “migliori” per aiutare a mitigare questo problema.

Puoi esplorare un confronto dettagliato del modello, l’impostazione dell’esperimento e i dati grezzi qui .

Scrittura creativa
Ora vediamo come si comporta il modello quando si tratta di scrittura creativa. Ho scelto un compito un po’ difficile: un pezzo d’epoca su Twitter scritto come il compianto Jerome K. Jerome. Mario Klingemann ha provato prima questo prompt con GPT-3 e puoi vedere la risposta GPT-3 in questo thread .

Di seguito la risposta di AI21 J-1 Jumbo (178B). Ancora una volta, il testo di input è in corsivo e la risposta di J-1 è in grassetto:

 
L’importanza di essere su twitter
di Jerome K. Jerome
Londra, estate 1897

E ‘ possibile che io abbia confuso la sequenza degli eventi.
Avendo imparato i rudimenti del cinguettio, ho proseguito,
e presto mi sono ritrovato a muovermi tra le classi di cinguettio.

Riconobbi subito che queste persone erano diverse da
quelle che avevo conosciuto prima. Erano chiamati “twitterers” e
cinguettavano. Era tutto quello che sapevo di loro.

Cinguettavano e cinguettavano.

All’inizio ho anche twitter. Ma presto scoprii che non
potevo vivere di cinguettio da solo, e che, inoltre,
il cinguettio interferiva con gli affari seri della vita.

Così, dopo
essermi assicurato la benevolenza delle persone che mi avevano conosciuto prima, cominciai a cercare qualche
nuova forma di vita. E quando incontrai un uomo, ben vestito
ed elegante, con un sigaro in bocca, e una
catena di orologio d’oro sul panciotto, e un occhiale negli
occhi, gli dissi: “Signore, che cosa fai per da vivere?”
Ha detto: “Sono un gentiluomo professionista”.
Ho detto: “Cosa, signore, si definisce un gentiluomo?”
Disse: “Sono un avvocato”.

 
Ho anche provato questo prompt con il modello J1-Large 7.5B. Dopo alcuni tentativi, il modello ha dato quello che, a mio parere, è un pezzo genuinamente creativo:

L’importanza di essere su twitter
di Jerome K. Jerome
Londra, estate 1897

È domenica e stiamo prendendo il tè.
“Suppongo”, dico io, “che tu stia twitterando.”
“Oh, sì”, dice lei, “twitter tutto il tempo.
“Twitter del tempo
” , “Twitter di persone
” , “Twitter di libri,
“Twitter di politica
” , “Twitter di arte
” “Twitter di qualsiasi cosa

Ho trovato il pezzo impressionante perché è riuscito a scrivere in un linguaggio datato in una prosa ritmica che è riuscita a preservare il tema generale dei social network.

Come provare Jurassic-1
A differenza di GPT-3, Jurassic-1 è accessibile a tutti. Puoi accedervi dallo studio AI21 (la creazione dell’account richiede l’autenticazione del numero di telefono).

Il livello gratuito consente 10K token al giorno per il modello Jurassic-1 178B e tre volte tanto per il modello Jurassic-1 7.5B più piccolo. Questo è sufficiente per provare a utilizzare l’interfaccia utente web, ma non abbastanza per utilizzare l’API per eseguire qualsiasi tipo di test o benchmark.


AI21 commercializzerà i suoi modelli attraverso un’offerta chiamata AI21 Studio, che è attualmente in “open beta limitata”. La società non ha ancora annunciato un modello di prezzo per questo utilizzo commerciale.

La linea di fondo

I problemi relativi alla sicurezza, all’etica e ai pregiudizi dell’IA sono stati motivo di preoccupazione per i modelli di linguaggio neurale e continuano a rimanere con i modelli di AI21 . Lasciando da parte questi problemi per un momento, i modelli di AI21 sembrano essere un promettente sostituto del GPT-3. Tuttavia, sono in ritardo su alcuni fronti:

Non hanno la capacità di utilizzare modelli specializzati come “GPT-3 davinci-instruct”, che spinge GPT-3 a seguire le istruzioni fornite come prompt o “codice GPT-3” specializzato nella scrittura di codice.
L’ecosistema “pronto” non è ancora maturo come GPT-3. Molti dei prompt di GPT-3 non si traducono direttamente in AI21 e non è ancora disponibile un elenco “ufficiale” completo di prompt.
La quota di token gratuiti di AI21 è troppo restrittiva e non sono stati ancora annunciati prezzi basati sull’utilizzo. Ciò rende difficile l’esecuzione di benchmark o l’ingegneria tempestiva. Tuttavia, puoi sempre scrivere loro con una spiegazione del requisito e sono felici di aumentare la quota (come hanno fatto per me).

Tuttavia, è ancora molto presto per AI21. Con il tempo, possiamo aspettarci che i modelli linguistici AI21 siano una valida alternativa ai modelli linguistici OpenAI.

Di ihal