I modelli linguistici di grandi dimensioni come il GPT-3 di OpenAI mostrano un’attitudine a generare testo e codice simili a quelli umani, scrivere automaticamente e-mail e articoli , comporre poesie e correggere bug nel software. Ma l’approccio dominante allo sviluppo di questi modelli prevede l’utilizzo di enormi risorse computazionali, il che ha delle conseguenze. Oltre al fatto che la formazione e l’implementazione di modelli linguistici di grandi dimensioni può comportare costi tecnici elevati, i requisiti mettono i modelli al di fuori della portata di molte organizzazioni e istituzioni. Il ridimensionamento inoltre non risolve il problema principale della distorsione e della tossicità del modello, che spesso si insinua nei dati utilizzati per addestrare i modelli.
In un panel durante la conferenza sui sistemi di elaborazione delle informazioni neurali (NeurIPS) 2021 , esperti del settore hanno discusso su come la comunità di ricerca dovrebbe adattarsi mentre i progressi nei modelli linguistici continuano a essere guidati da algoritmi su larga scala. I relatori hanno esplorato come garantire che le istituzioni più piccole possano ricercare e controllare in modo significativo sistemi su larga scala, nonché i modi in cui possono aiutare a garantire che i sistemi si comportino come previsto.
Melanie Mitchell, professoressa di informatica al Santa Fe Institute, ha sollevato il punto che è difficile garantire le stesse norme di riproducibilità per modelli linguistici di grandi dimensioni rispetto ad altri tipi di sistemi di intelligenza artificiale più piccoli. L’IA aveva già un problema di riproducibilità: gli studi spesso forniscono risultati di benchmark al posto del codice sorgente , che diventa problematico quando viene messa in discussione la completezza dei benchmark. Ma il vasto calcolo richiesto per testare modelli linguistici di grandi dimensioni minaccia di esacerbare il problema, in particolare perché i modelli in questione raddoppiano, triplicano o addirittura quadruplicano le dimensioni.
Per illustrare la sfida di lavorare con modelli linguistici di grandi dimensioni, Nvidia ha recentemente reso open source Megatron-Turing Natural Language Generation (MT-NLG), uno dei modelli linguistici più grandi al mondo con 530 miliardi di parametri. Nell’apprendimento automatico, i parametri sono la parte del modello appresa dai dati di addestramento cronologici. In generale, nel dominio della lingua, la correlazione tra il numero di parametri e la sofisticatezza ha retto notevolmente bene. Il modello è stato originariamente addestrato su 560 server Nvidia DGX A100, ognuno dei quali ospita 8 GPU Nvidia A100 da 80 GB. Microsoft e Nvidia affermano di aver osservato tra 113 e 126 teraflop al secondo (una misura delle prestazioni) per GPU durante l’addestramento MT-NLG, il che farebbe salire il costo dell’addestramento nell’ordine di milioni di dollari.
Anche OpenAI, che ha centinaia di milioni di dollari in finanziamenti da Microsoft, lotta con questo. L’azienda non ha corretto un errore quando ha implementato GPT-3 , un modello di linguaggio con meno della metà dei parametri di MT-NLG, perché il costo della formazione ha reso impossibile la riqualificazione del modello.
“Spesso, le persone alle conferenze sull’apprendimento automatico danno risultati come ‘un nuovo numero di parametri nel nostro sistema ha prodotto queste nuove prestazioni su questo benchmark’, ma è davvero difficile capire esattamente perché [il sistema raggiunge questo obiettivo]”, ha detto Mitchell. “Fa emergere la difficoltà di fare scienza con questi sistemi… La maggior parte delle persone nel mondo accademico non ha le risorse di calcolo per fare il tipo di scienza necessaria”.
Tuttavia, anche con le risorse di calcolo necessarie, il benchmarking di modelli linguistici di grandi dimensioni non è un problema risolto. È l’affermazione di alcuni esperti che i benchmark popolari fanno uno scarso lavoro di stima delle prestazioni nel mondo reale e non tengono conto delle più ampie implicazioni etiche, tecniche e sociali. Ad esempio, uno studio recente ha rilevato che dal 60% al 70% delle risposte fornite dai modelli di elaborazione del linguaggio naturale erano incorporate da qualche parte nei set di formazione di riferimento, indicando che i modelli stavano memorizzando le risposte.
“[I] modi in cui misuriamo le prestazioni di questi sistemi devono essere ampliati… Quando i benchmark vengono leggermente modificati, [spesso] non si generalizzano bene”, ha continuato Mitchell. “Quindi penso che i modi in cui esaminiamo i sistemi e i modi in cui misuriamo le loro prestazioni devono essere un grosso problema in questo intero campo e che dobbiamo dedicare più tempo a questo”.
I vincoli alimentano la creatività
Joelle Pineau, co-direttrice di Meta AI Research, la divisione di ricerca AI di Meta (ex Facebook), ha messo in dubbio il tipo di conoscenza scientifica che si può ottenere semplicemente ridimensionando modelli linguistici di grandi dimensioni. Secondo quanto riferito, il successore di GPT-3 conterrà circa 100 trilioni di parametri, ma in un documento di ricerca pubblicato questa settimana, DeepMind di Alphabet ha dettagliato un modello linguistico – RETRO – che afferma può battere altri 25 volte la sua dimensione usando “esterno tecniche di memoria”.
In effetti, essere vincolati alle risorse può portare a nuove soluzioni con implicazioni che vanno oltre il problema per cui sono state originariamente create. Il ricercatore di DeepMind Oriol Vinyals ha sottolineato che il Transformer , un’architettura di intelligenza artificiale che ha guadagnato notevole attenzione negli ultimi anni, è nata alla ricerca di un modo più efficiente in termini di risorse per sviluppare sistemi di linguaggio naturale. Dalla sua introduzione nel 2017, il Transformer è diventato l’architettura preferita per le attività in linguaggio naturale e ha dimostrato un’attitudine a riassumere documenti, comporre musica, tradurre tra lingue, analizzare sequenze di DNA e altro ancora.
Queste soluzioni potrebbero toccare il pregiudizio, potenzialmente – una preoccupazione perenne nell’elaborazione del linguaggio naturale. Come sottolinea un altro lavoro di DeepMind , i modelli linguistici di grandi dimensioni possono perpetuare gli stereotipi e danneggiare i gruppi svantaggiati ottenendo risultati scarsi per loro. Inoltre, questi modelli possono fornire informazioni false o fuorvianti, o addirittura disinformazione, minando la fiducia.
“Vorrei aggiungere che uno dei pericoli di questi modelli è che le persone danno loro troppo credito”, ha detto Mitchell. “Sembrano davvero umani e possono fare tutte queste cose, quindi le persone – non solo il pubblico in generale, ma anche gli stessi ricercatori di intelligenza artificiale – li antropomorfizzano troppo… e forse stanno permettendo alle persone di usarli in modi che non dovrebbero necessariamente essere utilizzato. [Dobbiamo] enfatizzare non solo [le] capacità [di modelli linguistici di grandi dimensioni], ma anche i loro limiti”.