Perché i Transformers offrono più di quanto sembri
Cosa hanno in comune il GPT-3 che genera il linguaggio di OpenAI e AlphaFold che prevede la forma delle proteine di DeepMind? Oltre a ottenere risultati di primo piano nei rispettivi campi, entrambi sono costruiti sulla base di Transformer, un’architettura di intelligenza artificiale che ha guadagnato una notevole attenzione negli ultimi anni. Risalente al 2017, Transformer è diventata l’architettura di scelta per le attività in linguaggio naturale e ha dimostrato un’attitudine a riassumere documenti, tradurre tra lingue e analizzare sequenze biologiche.
Transformer ha applicazioni aziendali chiare e immediate. Il GPT-3 di OpenAI è attualmente utilizzato in più di 300 app da decine di migliaia di sviluppatori, producendo 4,5 miliardi di parole al giorno. DeepMind sta applicando la sua tecnologia AlphaFold per identificare cure per malattie rare e trascurate. E applicazioni più sofisticate sono all’orizzonte, come dimostrato dalla ricerca che mostra che Transformer può essere sintonizzato per giocare a giochi come gli scacchi e persino applicato all’elaborazione delle immagini.
Cosa sono i trasformatori?
L’architettura Transformer è composta da due componenti principali: un codificatore e un decodificatore. L’encoder contiene livelli che elaborano i dati di input, come testo e immagini, in modo iterativo livello per livello. Ciascun livello di codificatore genera codifiche con informazioni su quali parti degli input sono rilevanti l’una per l’altra. Quindi passano queste codifiche al livello successivo prima di raggiungere il livello dell’encoder finale.
I livelli del decodificatore fanno la stessa cosa, ma sull’output del codificatore. Prendono le codifiche e utilizzano le informazioni contestuali incorporate per generare una sequenza di dati in uscita, che si tratti di testo, una struttura proteica prevista o un’immagine.
Ciascun livello di codificatore e decodificatore si avvale di un “meccanismo di attenzione” che distingue Transformer dalle altre architetture. Per ogni input, l’attenzione soppesa la rilevanza di ogni altro input e attinge da essi per generare l’output. Ciascun livello del decodificatore ha un meccanismo di attenzione aggiuntivo che attinge informazioni dalle uscite dei decodificatori precedenti prima che lo strato del decodificatore attiri finalmente informazioni dalle codifiche per produrre un’uscita.
I trasformatori in genere subiscono un apprendimento semi-supervisionato che comporta un pre-addestramento non supervisionato, seguito da un perfezionamento supervisionato. Risiedendo tra l’apprendimento supervisionato e non supervisionato, l’apprendimento semi-supervisionato accetta dati parzialmente etichettati o in cui la maggior parte dei dati manca di etichette. In questo caso, i Transformers vengono prima sottoposti a dati “sconosciuti” per i quali non esistono etichette precedentemente definite e devono imparare a classificare i dati, elaborando i dati non etichettati per apprendere dalla loro struttura intrinseca. Durante il processo di messa a punto, i Transformer si addestrano su set di dati etichettati in modo che imparino a svolgere compiti particolari, come rispondere a domande, analizzare il sentimento e parafrasare documenti.
È una forma di trasferimento di apprendimento, o memorizzazione delle conoscenze acquisite durante la risoluzione di un problema e l’applicazione a un problema diverso, ma correlato. La fase di preaddestramento aiuta il modello ad apprendere le caratteristiche generali che possono essere riutilizzate nell’attività di destinazione, aumentandone la precisione.
L’attenzione ha l’ulteriore vantaggio di aumentare la velocità di allenamento del modello. Poiché i trasformatori non sono sequenziali, possono essere parallelizzati più facilmente e modelli sempre più grandi possono essere addestrati con aumenti significativi, ma non irraggiungibili, del calcolo. In esecuzione su 16 Google TPUv3 processori speciali costruzione, AlphaFold sono voluti un paio di settimane per il treno, mentre l’OpenAI musica generatrici Jukebox ha preso più di un mese attraverso centinaia di schede grafiche Nvidia V100.
Il valore aziendale di Transformers
I trasformatori sono stati ampiamente utilizzati nel mondo reale. Viable utilizza il GPT-3 alimentato da Transformer per analizzare il feedback dei clienti, identificando temi e opinioni da sondaggi, ticket dell’help desk, registri di chat dal vivo, recensioni e altro ancora. Algolia, un’altra startup, lo sta usando per migliorare i suoi prodotti di ricerca web.
Casi d’uso più interessanti si trovano al di là del dominio linguistico. A gennaio, OpenAI ha svelato DALL-E, un motore da testo a immagine che è essenzialmente un generatore di idee visive. Dato un prompt di testo, genera immagini che corrispondano al prompt, riempiendo gli spazi vuoti quando il prompt implica che l’immagine deve contenere un dettaglio che non è dichiarato esplicitamente.
OpenAI prevede che un giorno DALL-E potrebbe aumentare o addirittura sostituire i motori di rendering 3D. Ad esempio, gli architetti potrebbero utilizzare lo strumento per visualizzare gli edifici, mentre gli artisti grafici potrebbero applicarlo alla progettazione di software e videogiochi. In un altro punto a favore di DALL-E, lo strumento basato su Transformer può combinare idee disparate per sintetizzare oggetti, alcuni dei quali è improbabile che esistano nel mondo reale, come un ibrido tra una lumaca e un’arpa.
“DALL-E mostra creatività, producendo immagini concettuali utili per il prodotto, la moda e l’interior design”, ha scritto in un recente post sul blog Gary Grossman, responsabile globale del centro di eccellenza AI di Edelman . “DALL-E potrebbe supportare il brainstorming creativo … sia con i primi pensieri o, un giorno, producendo immagini concettuali finali. Il tempo dirà se questo sostituirà le persone che svolgono questi compiti o sarà semplicemente un altro strumento per aumentare l’efficienza e la creatività”.
Alla fine vedremo modelli basati su Transformer che possono fare un ulteriore passo avanti, sintetizzando non solo immagini ma video da tutto il tessuto. Questi tipi di sistemi sono stati dettagliati nella letteratura accademica. Altre applicazioni correlate potrebbero presto, o già, includere la generazione di voci realistiche , il riconoscimento del parlato , l’ analisi delle cartelle cliniche , la previsione dei prezzi delle azioni e la creazione di codice per computer .
In effetti, i trasformatori hanno un immenso potenziale nell’impresa, che è uno dei motivi per cui si prevede che il mercato globale dell’IA varrà $ 266,92 miliardi entro il 2027. Le app basate sui trasformatori potrebbero consentire ai lavoratori di dedicare il loro tempo a lavori meno umili e più significativi, rafforzando produttività. Il McKinsey Global Institute prevede che la tecnologia come Transformers comporterà un aumento dell’1,2% della crescita del prodotto interno lordo (PIL) per i prossimi 10 anni e aiuterà a catturare un ulteriore 20% al 25% di benefici economici netti – $ 13 trilioni a livello globale – nel prossimo 12 anni.
Le aziende che ignorano il potenziale dei trasformatori lo fanno a loro rischio e pericolo.