C’è una preoccupazione crescente riguardo alla mancanza di dati che minaccia lo sviluppo dei modelli di intelligenza artificiale (AI) in rapida crescita. Secondo il Wall Street Journal (WSJ), tecnologie come “GPT-4” di OpenAI e “Gemini” di Google potrebbero presto affrontare una carenza di dati.
Il problema è che la domanda di dati testuali di alta qualità per addestrare questi modelli sta superando l’offerta disponibile su Internet. Questo ha portato i ricercatori a esplorare nuove fonti di dati, come dati sintetici, video di YouTube e post sui social media, oltre a migliorare l’efficienza dell’apprendimento tramite tecniche di machine learning.
Tuttavia, nonostante gli sforzi per trovare nuove fonti di dati, la qualità rimane un problema. La maggior parte dei dati disponibili su Internet è di bassa qualità o ha limitazioni di accesso a causa di problemi di copyright. Questo ha portato i ricercatori a esaminare approcci alternativi, come l’apprendimento del curriculum, anche se ciò comporta il rischio di un “collasso del modello”.
Secondo Pablo Virarobos di Epoch, i modelli futuri come “GPT-5” potrebbero richiedere fino a 60-100 trilioni di token di dati per mantenere le loro attuali traiettorie di crescita. Tuttavia, la quantità di dati disponibili attualmente è molto inferiore a questa cifra.
Airi Morkos di Daytology AI ha sottolineato che la scarsità di dati rimane un’area di ricerca inesplorata. Tuttavia, con la fine dell’era dei grandi modelli di intelligenza artificiale, si prevede che modelli specializzati, che hanno appreso conoscenze specifiche di dominio, diventeranno più comuni rispetto ai grandi modelli generici come GPT-4.
Inoltre, si sta osservando una tendenza verso l’uso del metodo del “mix di esperti (MoE)”, che suddivide un unico modello in più modelli specializzati. Questo approccio si concentra sull’efficienza piuttosto che sulle prestazioni e sta diventando sempre più popolare tra i nuovi modelli di intelligenza artificiale rilasciati di recente.