Il nuovo modello linguistico di Amazon è un modello multilingue su larga scala, pre-addestrato su una serie di attività di denoising e di modellazione del linguaggio causale (CLM)
Ispirandosi al modello GPT-3 sviluppato da OpenAI, Amazon ha introdotto il suo ultimo modello linguistico, l’Alexa Teacher Model (AlexaTM 20B). È un modello di codificatore-decodificatore da sequenza a sequenza (seq2seq), a differenza della maggior parte dei modelli di linguaggio odierni, che sono architetture di solo decodificatore.
Informazioni su AlexaTM 20B
Il nuovo modello linguistico di Amazon è un modello multilingue su larga scala pre-addestrato su una serie di attività di denoising e di modellazione del linguaggio causale (CLM). Secondo l’azienda, questa strategia aiuta il modello AlexaTM a essere più efficiente per l’apprendimento in pochi scatti rispetto ai modelli linguistici solo con decoder.
Il modello AlexaTM 20B raggiunge prestazioni all’avanguardia per le attività di riepilogo 1-shot e supera il modello di decoder PaLM più ampio con 540 miliardi di parametri. Il modello di Amazon funziona particolarmente bene per le coppie di lingue con risorse limitate che supporta: arabo, francese, inglese, tedesco, hindi, italiano, giapponese, portoghese, spagnolo, marathi, tamil e telugu sul set di dati Flores-101.
Inoltre, nell’impostazione zero-shot, AlexaTM 20B supera persino GPT3 sui set di dati SuperGLUE e SQuADv2. Offre anche prestazioni all’avanguardia su attività multilingue come XNLI, XCOPA, Paws-X e XWinograd.
I ricercatori di AlexaTM 20B hanno descritto una pipeline di sviluppo del modello in cui gli encoder basati su trasformatore vengono pre-addestrati da zero utilizzando dati pubblici, adattati utilizzando dati senza etichetta, distillati utilizzando un processo di distillazione in 2 fasi e infine messi a punto. Ciò è in contrasto con la pratica abituale dei primi modelli NLU incentrati sulla produzione di distillazione con parametri 85M-300M e quindi perfezionati o alternativamente addestrandoli da zero sul set di dati etichettato finale. La pipeline di AlexaTM inizia con modelli contenenti oltre 2,3 miliardi di parametri e migliora questo paradigma.
Il modello AlexaTM 20B è soggetto a diversi vincoli che generalmente non si applicano ad altri modelli linguistici. Poiché il lavoro deve essere utilizzato in un dispositivo edge, come i telefoni cellulari, la memoria è a un livello superiore e l’inferenza del modello dovrebbe essere a bassa latenza. Inoltre, l’assistente digitale Alexa supporta diverse lingue e l’input è in forma orale, che è molto diversa dalla forma scritta del testo utilizzata nei set di dati di addestramento.
Sfide e lavoro futuro
In futuro, il team afferma che vorrebbe caratterizzare in modo robusto l’uso di modelli conversazionali pubblici pre-addestrati come TOD-BERT e ConveRT, valutare più combinazioni di dimensioni del modello insegnante e distillato, confrontare il modello con diversi set di dati pubblici come MultiATIS o MASSIVE. Il team vuole fare un uso maggiore della finestra di dialogo e del contesto utente, provare a cambiare codice ed esaminare vari livelli di rumore ASR e altro ancora.
Inoltre, il team ha anche ammesso che, come altri modelli linguistici di grandi dimensioni, AlexaTM 20B ha la probabilità di perpetuare un linguaggio tossico, stereotipi dannosi e pregiudizi sociali basati sui dati pubblici online su cui è stato addestrato. In questo contesto, il team raccomanda agli utenti di “condurre un’analisi completa dell’equità e della parzialità specifica dell’attività prima di utilizzare il modello per comprendere appieno e affrontare qualsiasi potenziale danno che potrebbe derivare dal suo utilizzo”.
Il team suggerisce inoltre che, a seconda dell’applicazione a valle a cui viene applicato il modello, le tecniche prescritte possono essere utilizzate per debias e disintossicare il modello. Gli autori dello studio ribadiscono inoltre l’importanza del fairness auditing. Sottolineano la necessità di ulteriori ricerche sulla mitigazione dei pregiudizi.
IA ambientale
Alla conferenza re:MARS – Amazon sull’apprendimento automatico e la robotica tenutasi nel giugno 2022, Rohit Prasad, vicepresidente senior di Alexa AI e scienziato capo, ha discusso in dettaglio della tendenza emergente dell’intelligenza ambientale. Questo concetto è pubblicizzato come il futuro dell’informatica intelligente in cui non sono richiesti input e output espliciti.
Prasad aveva poi affermato che l’intelligenza ambientale offre il modo più pratico per ottenere un’intelligenza generalizzabile. “L’intelligenza ambientale è esemplificata al meglio dai servizi di intelligenza artificiale come Alexa, che utilizziamo quotidianamente. I clienti interagiscono con Alexa miliardi di volte ogni settimana. E grazie a funzionalità predittive e proattive come Hunches e Routines, oltre il 30% delle interazioni con la casa intelligente viene avviato da Alexa”, ha affermato in un’intervista.