I modelli linguistici sono stati oggetto di discussione nella città dell’IA negli ultimi due anni. Nel 2003, il primo modello di linguaggio di rete neurale feed-forward è stato proposto da Bengio et al., seguito dall’introduzione di Transformers da parte di Google nel 2016, cambiando completamente il campo di gioco. Mentre il BERT di Google è stato uno dei primi modelli linguistici di grandi dimensioni con 100 milioni di parametri, oggi abbiamo modelli linguistici di grandi dimensioni costruiti da grandi aziende tecnologiche che variano in trilioni di parametri. Analytics India Magazine ha elencato tutte le grandi aziende tecnologiche e i loro più grandi modelli linguistici. 

OPEN AI: GPT-3
Rilasciato a maggio 2020 da OpenAI, GPT-3 è rimasto tra i modelli di linguaggio AI più significativi mai creati. Il trasformatore generativo pre-addestrato può generare su richiesta testo unico simile a quello umano. La terza versione, GPT-3, è stata costruita su 570 GB di dati scansionati da Internet, inclusa Wikipedia. GPT-3 è popolarmente noto per la sua capacità di generare testo in un contesto limitato; il testo è sotto forma di saggi, tweet, promemoria, traduzioni e persino codice informatico. Si basa su 175 miliardi di parametri, il che lo rende uno dei più grandi modelli linguistici fino ad oggi. 

OpenAI: DALL.E
Nel 2021, OpenAI ha rilasciato DALL·E, una versione di 12 miliardi di parametri di GPT-3 addestrata per generare immagini da descrizioni di testo, utilizzando un set di dati di coppie testo-immagine. OpenAI ha affermato che DALL·E è un modello di linguaggio trasformatore che riceve sia il testo che l’immagine come un unico flusso di dati contenente fino a 1280 token. Ha aggiunto che DALL.E potrebbe eseguire il rendering di un’immagine da zero e modificarne gli aspetti utilizzando i prompt di testo.

Google: Switch Transformer
Nel 2021, i ricercatori di Google hanno introdotto Switch Transformer , un modello di linguaggio basato sui modelli T5-Base e T5-Large. Con 1,6 trilioni di parametri, i ricercatori hanno riscontrato prestazioni migliori rispetto al modello più piccolo T5-XXL con 400 miliardi di parametri. Si dice anche che sia il più grande del suo genere. Switch Transformer utilizza un algoritmo di instradamento misto di esperti (MoE) e modelli migliorati intuitivi dal design con costi di comunicazione e computazionali ridotti. 

Google: GLAM
Il modello linguistico generalista di Google è un modello di trilioni di peso che utilizza la scarsità . La sua versione completa ha 1,2 T di parametri totali su 64 esperti per strato di miscela di esperti (MoE) con 32 strati MoE in totale. Tuttavia, durante l’inferenza, attiva solo una sottorete di 97B (8% di 1,2T) parametri per la previsione del token. Di conseguenza, GLaM ha migliorato l’efficienza dell’apprendimento in 29 benchmark di PNL pubblici in sette categorie: completamento della lingua, risposta a domande in dominio aperto e attività di inferenza. 

Microsoft: Turing NLG
Turing NLG di Microsoft , con i suoi 17 miliardi di parametri, è stato uno dei modelli più grandi del 2020. Il trasformatore può completare compiti testuali illimitati e frasi incompiute generando parole. Inoltre, può fornire risposte dirette a domande e riepilogare documenti. 

Accademia di intelligenza artificiale di Pechino (BAAI): Wu Dao 2.0
Wu Dao 2.0, costruito dalla Beijing Academy of Artificial Intelligence (BAAI), sostenuta dal governo cinese, è il modello linguistico più recente e più ampio. Si basa su 1,75 trilioni di parametri, superando facilmente GPT-3 o Switch Transformer di Google. Wu Dao 2.0 copre inglese e cinese con una formazione svolta studiando 4,9 terabyte di testi e immagini in entrambe le lingue. Le abilità del modello includono la simulazione del discorso colloquiale, la scrittura di poesie, la comprensione di immagini e la generazione di ricette. 

AI2: Ara
L’ Ara di AI2 è un modello QA basato su un approccio multi-angolo, che sfrutta diversi input e output per ottenere i risultati. Formato su 11 miliardi di parametri, il modello può affrontare con successo vari tipi di domande, tra cui conoscenza generale, meta ragionamento, ipotetico e comprensione della storia. Nonostante i suoi parametri inferiori, AI2 afferma che Macaw ha superato GPT-3 di oltre il 10% su una suite di 300 domande di sfida. 

DeepMind: Gopher
DeepMind ha presentato il suo concorrente a GPT-3, Gopher, un modello di linguaggio del trasformatore di parametri da 280 miliardi. Il team afferma che Gopher dimezza quasi il divario di precisione da GPT-3 alle prestazioni degli esperti umani e supera le aspettative dei meteorologi. Inoltre, Gopher migliora le prestazioni rispetto agli attuali modelli linguistici all’avanguardia in circa l’81% delle attività che contengono risultati comparabili. 

AI21: Jurassic-1
Si dice che Jurassic-1 di AI21 sia “il modello di linguaggio più grande e sofisticato mai rilasciato per l’uso generale da parte degli sviluppatori”. Addestrato su 178 miliardi di parametri, è leggermente più grande di GPT-3 e può riconoscere 250.000 voci lessicali, rendendo la sua capacità 5 volte quella degli altri modelli linguistici. Il set di dati di addestramento di Jurassic-1, Jumbo, consisteva in 300 miliardi di token da siti Web in lingua inglese. 

Huawei: PanGu Alpha
Progettato dalla società cinese Huawei, PanGu Alpha è un modello da 750 gigabyte contenente 200 miliardi di parametri. La società lo ha pubblicizzato come l’equivalente cinese di GPT-3 poiché può gestire attività in inglese e cinese. È stato addestrato su 1,1 terabyte di ebook, enciclopedie, notizie, post sui social media e siti Web in lingua cinese e si dice che raggiunga prestazioni “superiori” nelle attività in lingua cinese. Ad esempio, può riassumere il testo, rispondere a domande e generare dialoghi. 

Microsoft + NVIDIA: Megatron-Turing NLG 530B
Microsoft e NVIDIA hanno collaborato per addestrare uno dei più grandi modelli linguistici monolitici basati su trasformatori, Megatron-Turing NLG (MT-NLG), con 530 miliardi di parametri. Le aziende affermano di aver stabilito risultati allo stato dell’arte, insieme alle precisioni SOTA nell’elaborazione del linguaggio naturale (NLP), adattandosi alle attività a valle tramite tecniche di messa a punto, zero shot e messa a punto. Inoltre, ha 3 volte il numero di parametri rispetto ai modelli più grandi esistenti. 

Baidu: ERNIE 3.0 Titan
Costruito da Baidu e Peng Cheng Laboratory, un istituto di ricerca scientifica con sede a Shenzhen, ERNIE 3.0 Titan è un modello linguistico di pre-formazione con 260 miliardi di parametri. Il modello è stato addestrato su tonnellate di dati non strutturati e un enorme grafico della conoscenza, consentendogli di eccellere nella comprensione e nella generazione del linguaggio naturale. Baidu afferma che il modello è il primo modello al mondo con più centinaia di miliardi di parametri e il più grande modello singleton cinese. I loro risultati hanno dimostrato che il modello potrebbe ottenere risultati all’avanguardia in oltre 60 attività di elaborazione del linguaggio naturale e generalizzare su varie attività a valle (data una quantità limitata di dati etichettati). 

LG: Exaone
Introdotto da LG, Exaone può mettere a punto 300 miliardi di parametri o variabili differenti. Exaone, che sta per “IA esperta per tutti”, può elaborare i dati attraverso l’efficienza e le competenze linguistiche avanzate messe a disposizione del sistema. LG AI Research ha anche addestrato il modello linguistico per curare, ingerire e interpretare enormi set di dati . Inoltre, ha un’elaborazione del linguaggio naturale più avanzata per raggiungere una performance linguistica “simile a quella umana”. Un punto unico di Exaone è che è stato addestrato per esibirsi sia in coreano che in inglese. Per questo motivo, ha il potenziale per un’adozione più ampia a livello globale.

Di ihal