Tre aree di innovazione nell’IA per cui tutti si battono
È un fatto innegabile che ogni volta che uno strumento nuovo, popolare e accattivante arriva sul mercato, le aziende tecnologiche si affrettano a replicarlo e creare le loro interpretazioni.
 
“In gioventù avrei sostenuto che la vita è solo una serie di eventi casuali, privi di qualsiasi significato. Ma come data scientist, devo riconoscere che a volte emergono degli schemi”. Quando Gilfoyle, uno dei personaggi principali della popolare sitcom Silicon Valley, ha detto questo, avrebbe anche potuto estenderlo ai modelli che emergono nello spazio dell’innovazione dell’IA. 

È un fatto innegabile che ogni volta che uno strumento nuovo, popolare e accattivante arriva sul mercato, le aziende tecnologiche si affrettano a replicarlo e creare le proprie interpretazioni. Questo dà vita a una certa tendenza: un modello. Negli ultimi anni, tre domini dell’innovazione dell’IA hanno registrato un maggiore interesse: modelli linguistici, strumenti di generazione del codice e sistemi di generazione dell’arte.

 
Modello Large Language
Essendo un gigante dei social media con una base di utenti di oltre 3,5 miliardi, Meta (l’ex Facebook) sfrutta pesantemente la tecnologia NLP. Il suo team tecnico sviluppa e implementa sistemi NLP avanzati per comprendere e comunicare con gli utenti e offrire, nelle parole stesse dell’azienda, “un’esperienza sicura, indipendentemente dalla lingua che parlano”.

Parlando di innovazioni legate alla PNL, Meta ha introdotto diverse iniziative.

A maggio, Meta ha introdotto Open Pretrained Transformer (OPT-175B), un modello linguistico addestrato su set di dati pubblicamente disponibili. Ciò che lo rendeva diverso dagli altri modelli linguistici era che veniva rilasciato insieme a modelli preaddestrati e al codice richiesto per addestrarli e utilizzarli. La società di proprietà di Zuckerberg lo ha seguito con il rilascio del suo modello da 66 miliardi di parametri.

OPT-175B si unisce all’elenco di altri modelli di linguaggio di grandi dimensioni di Meta. L’anno scorso, Meta ha utilizzato il Generative Spoken Language Model (GSLM). A differenza di altri modelli linguistici, GSLM è un modello NLP senza testo che utilizza segnali audio grezzi come input. Secondo l’azienda, GSLM supera le sfide dei modelli linguistici basati su testo, che è il requisito di grandi set di dati di testo.

Una delle ricerche più importanti nel campo della PNL di Meta è arrivata sotto forma di RoBERTa, un metodo ottimizzato per il pre-training dei sistemi NLP. Questo strumento fornisce risultati all’avanguardia sulla valutazione della comprensione generale del linguaggio (GLUE), un benchmark della PNL ampiamente utilizzato.

RoBERTa si basa sul modello BERT di Google. Quando è stato introdotto nel 2018, il modello BERT ha davvero rivoluzionato il grande spazio del modello linguistico. Ha offerto risultati all’avanguardia nella comunità dell’apprendimento automatico, in particolare nell’esecuzione di una serie di attività NLP. Uno dei maggiori risultati di questo modello non è stato solo in termini di dimensioni enormi (340 milioni di parametri), ma anche nell’applicazione della formazione bidirezionale di Transformer, un popolare modello di attenzione alla modellazione del linguaggio.

Uno dei momenti spartiacque dell’apprendimento delle lingue è arrivato con l’introduzione del modello GPT-3. Un modello da 175 miliardi di parametri era sconosciuto quando introdotto da OpenAI nel 2020. Da allora ci sono stati diversi modelli più grandi e migliori. Nel 2021, Google ha introdotto il modello Switch Transformer, che è stato addestrato su ben 1 trilione di parametri. Altri importanti modelli di grandi dimensioni includono Gopher e Chinchilla di Deepmind con 280 miliardi e 70 miliardi di parametri; il modello NLG Megatron-Turing di Microsoft-NVIDIA con 530 miliardi di parametri; I modelli GLaM (1,2 trilioni) e LaMDA (137 miliardi) di Google.

Di recente, il modello LaMDA di Google è stato nelle notizie quando un (ora ex) dipendente di Google Blake Lemoine ha affermato che l’IA è diventata senziente. Lemoine fu presto messo in pausa e alla fine fu licenziato dalla compagnia.

Generatore di codici
OpenAI ha sviluppato Codex, uno strumento di intelligenza artificiale che traduce il linguaggio naturale in codice; può interpretare semplici comandi in linguaggio naturale ed eseguirli per conto degli utenti. Basato su Codex, OpenAI, in collaborazione con Microsoft e GitHub, ha introdotto Copilot nel 2021. OpenAI lo chiama un programmatore di coppia AI che aiuta a scrivere codice migliore. Lo strumento Copilot trae il contesto dal codice su cui si sta lavorando e suggerisce intere righe o intere funzioni.

 

Subito dopo, Salesforce ha reso disponibile un sistema di apprendimento automatico chiamato CodeT5 in grado di comprendere e generare codice in tempo reale. Secondo il team, CodeT5 potrebbe ottenere prestazioni all’avanguardia per attività come il rilevamento dei difetti del codice, la previsione se il codice è vulnerabile agli exploit, il rilevamento dei cloni e il rilevamento di frammenti di codice che potrebbero avere le stesse funzionalità.

All’inizio di quest’anno, DeepMind ha introdotto AlphaCode, un generatore di codice che utilizza un modello di linguaggio basato su trasformatore per produrre righe di codice su una “scala senza precedenti”. Mostra abilità come comprensione della lingua e capacità di risoluzione dei problemi. Quando è stato testato contro programmatori umani sulla popolare piattaforma di programmazione competitiva Codeforces, AlphaCode ha ottenuto una media del 54,3% in dieci concorsi.

Un altro famoso strumento di generazione del codice è stato quello dei ricercatori della Carnegie Mellon University: Frank Xu, Uri Alon, Graham Neubig e Vincent Hellendoorn. Chiamato PolyCoder, è un modello basato su GPT-2 (addestrato sul database di 249 GB di codice in 12 linguaggi di programmazione).

Altri strumenti di generazione di codice delle principali aziende tecnologiche sono TransCoder di Facebook , ControlFlag di Intel e una nuova funzionalità in Power Apps di Microsoft.

Generazione d’arte AI
Gli strumenti di generazione artistica basati sull’intelligenza artificiale hanno segnato la scena dell’IA nella prima metà dell’anno. È iniziato con il lancio di DALL.E 2 di OpenAI. Questo strumento di generazione di immagini crea immagini realistiche da una descrizione di testo in linguaggio naturale fornita dall’utente. Può combinare concetti, stili e attributi. Può anche aggiungere e rimuovere elementi tenendo in considerazione ombre, riflessi e trame. OpenAI ha recentemente reso disponibile al pubblico la versione beta di questo strumento.


DALL.E 2 è il successore di DALL.E, introdotto da OpenAI all’inizio del 2021. Il nome DALL.E è in realtà un portmanteau di Salvador Dali e del robot di Wall-E. È una rete neurale addestrata su 250 milioni di coppie di immagini e testi raccolti da Internet. Insieme all’introduzione di DALL.E, OpenAI ha anche lanciato il modello Contrastive Language–Image Pretraining (CLIP) che si basa sul trasferimento zero-shot, sulla supervisione del linguaggio naturale e sull’apprendimento multimodale. Il modello apprende concetti visivi dalla supervisione del linguaggio naturale; può essere applicato a qualsiasi benchmark di classificazione visiva.

 Tornando a DALL.E 2, il tipo di rabbia che ha creato non solo nella comunità di ricerca sull’IA ma anche nel pubblico in generale era senza precedenti. Subito dopo, Google ha introdotto Imagen . È un modello di diffusione da testo a immagine che offre livelli superiori di fotorealismo e comprensione del linguaggio.

Di recente, anche Meta ha introdotto uno strumento di generazione artistica basato sull’intelligenza artificiale chiamato Make-A-Scene. È un metodo di IA generativa multimodale per generare immagini corrispondenti al prompt testuale fornito dall’utente.

Altri importanti e popolari strumenti di generazione dell’arte dell’IA includono Craiyon di HuggingFace (ex DALL.E Mini) e Midjourney del Midjourney Lab.

Con l’introduzione di diversi strumenti per la creazione di opere d’arte negli ultimi mesi, è facile identificarlo come il sapore della stagione dell’IA. Ma chi ha seguito da vicino il campo vi direbbe che questo potrebbe non durare a lungo. La comunità dell’IA si sposterà verso pascoli migliori e più lucenti. Finché il pascolo si sviluppa, nessuno si lamenta davvero!

Di ihal