Stiamo esplorando alcune ben note alternative di modelli di linguaggio di grandi dimensioni basate su modelli di trasformatori!
Mentre ChatGPT continua a fare notizia per tutte le ragioni giuste e sbagliate, il chatbot simile a quello umano sembra svolgere una serie di compiti, che vanno dalla risoluzione di problemi matematici alla generazione di codici, alla scrittura di saggi e altro ancora.
Questo nuovo strumento di OpenAI sta già cambiando le prospettive delle persone e il modo in cui cercano informazioni rispondendo a domande complesse. Tuttavia, non è del tutto solo in questo spazio. In questo articolo, stiamo esplorando alcune ben note alternative di modelli di linguaggio di grandi dimensioni basate su modelli di trasformatori , simili a GPT-3 e BERT.
1 LaMDA
Sviluppato da Google con 137 miliardi di parametri, LaMDA è stata una rivoluzione nel mondo dell’elaborazione del linguaggio naturale. È stato creato mettendo a punto un gruppo di modelli di linguaggio neurale basati su Transformer. Per la pre-formazione, il team ha creato un set di dati di 1,5 trilioni di parole che è 40 volte superiore rispetto ai modelli sviluppati in precedenza. LaMDA è già stato utilizzato per l’apprendimento zero-shot, la sintesi del programma e il workshop BIG-bench.
2 Blender Bot 2
Chatbot di Meta: Blender Bot 2, la cui terza iterazione è stata rilasciata pochi mesi fa. Il prototipo di IA conversazionale si basa su 175 miliardi di parametri e dispone di una propria memoria a lungo termine. Il modello utilizza la cronologia dei dialoghi, Internet e la memoria per produrre output.
3 Alexa Teacher Model (ATM)
Alexa Teacher Model (ATM) è un modello linguistico di grandi dimensioni con 20 miliardi di parametri. AlexaTM 20B è un modello di linguaggio seq-2-seq con funzionalità SOTA per l’apprendimento di pochi colpi. Ciò che lo rende diverso dagli altri è che ha un codificatore e un decodificatore per aumentare le prestazioni sulla traduzione automatica. Con un numero di parametri pari a 1/8, il modello linguistico di Amazon ha superato GPT-3 nei benchmark SQuADv2 e SuperGLUE.
4 DialoGPT
DialoGPT è un modello di generazione di risposta al dialogo pre-addestrato su larga scala per conversazioni a più turni. Il modello viene addestrato su 147 milioni di dialoghi a più turni dai thread di discussione di Reddit.
5 Gödel
Godel si è evoluto dal progetto DialoGPT 2019 di Microsoft . Il modello combina due funzionalità in un unico modello. Il primo è orientato al compito e il secondo è rendere il dialogo più realistico e sociale . La maggior parte dei chatbot si concentra sull’essere l’uno o l’altro. Così, ad esempio, il Gödel può consigliare un ristorante e contemporaneamente impegnarsi in una conversazione su sport o giochi meteorologici e quindi riportare la conversazione in carreggiata.
6 Sparrow
Il chatbot AI di Deepmind ‘Sparrow’ è un “utile agente di dialogo che riduce il rischio di risposte non sicure e inappropriate”. È addestrato a conversare con un utente, rispondere a domande e persino cercare in Internet utilizzando Google per fornire prove per informare le sue risposte.
Oltre all’apprendimento per rinforzo, Sparrow si basa su Chinchilla, composto da 70 miliardi di parametri, che fa facilmente inferenze e mette a punto compiti relativamente più leggeri. Inoltre, è stato creato con 23 regole per impedirgli di fornire risposte distorte e tossiche.
Tuttavia, il modello è stato rimosso per miglioramenti.
7 Galactica
Nel novembre 2022, Meta ha rilasciato Galactica come un modello di linguaggio di grandi dimensioni open source addestrato sulla conoscenza scientifica, con 120 miliardi di parametri. dispense su testi scientifici, produrre risposte a domande, risolvere soluzioni matematiche complesse, annotare molecole e proteine e altro ancora.
Tuttavia, quando i membri della comunità hanno iniziato a utilizzare il nuovissimo modello AI di Meta, molti hanno trovato i risultati imprecisi, costringendo così il gigante della tecnologia a smantellare il modello pochi giorni dopo il suo lancio.