Cosa sta impedendo all’IA generativa di raggiungere la crescita?
Il ridimensionamento dei modelli linguistici sta diventando sempre più difficile e la mancanza di dati di alta qualità rappresenta la sfida più grande.
 
L’IA generativa è in aumento . I ricercatori stanno spingendo per ridimensionare questi modelli a più parametri per aumentare le loro prestazioni. Ad esempio, GPT-3 , utilizzato in molte applicazioni di livello aziendale, ha 175 miliardi di parametri. Allo stesso modo, Gopher di DeepMind con 280 miliardi di parametri, Megatron Turing NLG di NVIDIA e Microsoft con 530 miliardi di parametri e PaLM di Google con 540 miliardi di parametri sono alcuni esempi degni di nota. 

Ma si pone la domanda: come possiamo ottenere architetture di machine learning per scalare le prestazioni e garantire un giusto compromesso, dati fattori come il calcolo, le dimensioni del set di dati e i parametri del modello? 

Il documento di OpenAI sulle leggi di ridimensionamento pubblicato nel 2020 ha dimostrato che l’aumento delle dimensioni del modello con dati relativamente piccoli ha comportato prestazioni migliori, quindi la tendenza osservata con l’afflusso di modelli linguistici di grandi dimensioni. Tuttavia, un recente studio di Deepmind ha dimostrato che, dato un budget di calcolo fisso, la dimensione del modello e la dimensione del set di dati (token) dovrebbero aumentare proporzionalmente. Inoltre, i risultati hanno mostrato che un modello più piccolo addestrato su più dati potrebbe funzionare meglio di diversi modelli sovradimensionati con dimensioni dei dati inferiori. 

 
“La nuova legge sul ridimensionamento afferma che se ottieni un aumento di 10 volte del calcolo, puoi rendere il tuo modello 3 volte più grande e i dati che alleni dovrebbero essere più di 3 volte più grandi”, ha detto ad AIM Manu Joseph, creatore di PyTorch Tabular . 

Carenza di dati di formazione
Un modello AI viene addestrato sia su dati di alta qualità che su dati di bassa qualità. E, con la velocità con cui la dimensione del set di dati sta crescendo, è sempre più difficile per i dati di borsa raggiungerla. Un documento di Epoch ha previsto che siamo entro un ordine di grandezza da esaurienti dati di alta qualità e che tra il 2023 e il 2027 non avremo più dati sulle scorte. Pertanto, la necessità è migliorare l’efficienza dei dati o rendere disponibili nuove fonti di dati per tenere il passo con la crescita dell’IA. 

Come afferma Manu, “Raccogliere più dati per addestrare gli LLM è una sfida poiché mancano dati di test di buona qualità e la maggior parte del testo su Internet è duplicato”. Quindi, è ancora da sapere come possiamo fornire una varietà di dati di input agli LLM per la formazione. 

Allo stesso modo, François Chollet di Google ha menzionato la stessa cosa mentre discuteva dell’ultima sensazione in AI, ChatGPT . Chollet afferma che se gran parte del Web viene inondata di contenuti generati da GPT, le prestazioni dei modelli di testo generativo si ridurranno man mano che iniziano ad allenarsi sul proprio output. Aggiunge, “potrebbe essere che le dimensioni del set di dati per i modelli di testo abbiano già raggiunto il picco, semplicemente perché il rapporto S2N [segnale/rumore] inizierà a diminuire”. Ciò significa che la rapida crescita dell’IA generativa alla fine rallenterà. 

Aumento dei dati di borsa
Mentre i ricercatori affermano che i dati azionari sono in calo, ci sono anche alcune limitazioni alle loro stime:

I ricercatori utilizzano sempre più dati sintetici per addestrare modelli neurali. I dati sintetici sono informazioni etichettate generate da simulazioni al computer o algoritmi e rappresentano un’alternativa ai dati del mondo reale. I dati sintetici sono, quindi, particolarmente importanti per la generazione di dati su larga scala. Tuttavia, vi è ancora incertezza sull’utilità dei dati sintetici, poiché gli studi dimostrano che devono ancora risolvere il problema della qualità dei dati. 
Gli attori governativi o aziendali possono facilitare la produzione di grandi quantità di dati attraverso registrazioni di schermate diffuse, videosorveglianza o registrazioni video (ad esempio, auto a guida autonoma) che trasmettono continuamente dati del mondo reale. Ad esempio, come sottolinea Manu, con modelli come Whisper di OpenAI, i video trascritti possono essere considerati una fonte per alimentare più dati negli LLM. 
Inoltre, possiamo anche generare dati di alta qualità da fonti di bassa qualità, ad esempio introducendo solide metriche di qualità automatiche. Ad esempio, una recente ricerca del MIT ha proposto un framework per generare dati di testo di alta qualità ottimizzando un punteggio critico che combina le metriche di fluidità, somiglianza e classificazione errata. I framework esistenti consentono ai classificatori di classificare erroneamente i dati di input a causa di attacchi contraddittori. Tuttavia, il framework Rewrite & Rollback (R&R) esplora più sostituzioni di parole e, in base al punteggio della critica, approva una riscrittura solo se non porta a una classificazione errata dei dati. In questo modo, può migliorare la qualità dei classificatori di testo. 
 

Per ottenere modelli di testo migliori, sarà importante sviluppare un processo che garantisca la qualità delle fonti. Quindi, mentre i dati sono ancora fondamentali, il semplice accumulare più dati non è la soluzione e alla fine è probabile che crei modelli molto peggiori. Tuttavia, fino a quando non svilupperemo modi più efficienti di apprendere dai dati, grandi quantità di dati per formare i LLM saranno sempre importanti.

Ridimensionamento di modelli di grandi dimensioni, alla maniera di Google
I ricercatori di Google hanno sviluppato un metodo chiamato UL2 Repair (UL2R), che può migliorare le proprietà di ridimensionamento degli LLM con un costo di calcolo aggiuntivo trascurabile e quasi nessuna nuova fonte di dati. UL2R è la seconda fase del pre-addestramento che utilizza un obiettivo misto di denoiser. L’obiettivo della miscela di denoiser include sia gli obiettivi di modellazione del linguaggio casuale —GPT-3, PaLM—che sono migliori per la generazione di forma lunga sia l’ obiettivo di denoising (T5) che è migliore per la messa a punto—quindi, portando a prestazioni migliori in entrambi scenari. Pertanto, è possibile pre-addestrare da zero un modello linguistico su un obiettivo diverso con un basso costo di calcolo con UL2R. 

Inoltre, i risultati hanno mostrato che nei loro esperimenti di ridimensionamento su compiti PNL a valle di pochi colpi, l’adattamento di PaLM con UL2R era due volte più efficiente alla scala 540B, raggiungendo le prestazioni del modello PaLM 540B finale con solo la metà del calcolo e risparmiando fino a 4,4 milioni di ore TPUv4.  

Inoltre, in un secondo documento, i ricercatori mostrano che il modello di messa a punto delle istruzioni, soprannominato “Flan”, può mettere a punto le attività con solo una piccola parte del costo di calcolo rispetto alla pre-formazione. Il metodo prevede la messa a punto di una raccolta di set di dati NLP formulati come istruzioni. I risultati hanno mostrato che Flan-PaLM 540 B ha avuto un aumento medio delle prestazioni del 9,4% rispetto a PaLM 540B con solo 1,8.000 esempi di addestramento aggiuntivi.

Di ihal