I modelli linguistici di grandi dimensioni (LLM) sono diventati una delle innovazioni più cruciali nel campo dell’intelligenza artificiale. Aziende come OpenAI e Microsoft stanno lavorando attivamente al rilascio di straordinari sistemi NLP, e l’accesso a grandi quantità di dati di alta qualità è fondamentale e non può essere sottovalutato.
Tuttavia, secondo una recente ricerca condotta da Epoch, potrebbe essere necessario disporre di ulteriori dati per addestrare i modelli di intelligenza artificiale. Il team di ricerca ha esaminato l’attuale disponibilità di dati di alta qualità su Internet (ad esempio, risorse come Wikipedia, a differenza di dati di bassa qualità come i post sui social media).
L’analisi ha mostrato che i dati di alta qualità potrebbero esaurirsi presto, probabilmente entro il 2026. Sebbene le fonti di dati di bassa qualità possano durare ancora per decenni, è evidente che la tendenza attuale di aumentare le dimensioni dei modelli all’infinito per migliorarne le prestazioni potrebbe presto incontrare dei limiti.
Sappiamo che i modelli di apprendimento automatico (ML) migliorano le loro prestazioni quando vengono addestrati su un maggior numero di dati. Tuttavia, aumentare semplicemente la quantità di dati non è sempre la soluzione migliore. Questo è particolarmente vero per eventi rari o applicazioni di nicchia. Ad esempio, se vogliamo addestrare un modello per rilevare una malattia rara, potremmo aver bisogno di una maggiore quantità di dati a disposizione. Tuttavia, desideriamo comunque che i modelli diventino più precisi nel tempo.
Ciò suggerisce che, se vogliamo evitare che lo sviluppo tecnologico rallenti, dobbiamo sviluppare nuovi paradigmi per la costruzione di modelli di apprendimento automatico che non dipendano esclusivamente dalla quantità di dati disponibili.
Una delle sfide più significative nel ridimensionamento dei modelli di apprendimento automatico è la diminuzione dei rendimenti ottenuti dall’aumento delle dimensioni del modello. Man mano che un modello diventa sempre più grande, i miglioramenti delle prestazioni diventano sempre più marginali. Ciò avviene perché, all’aumentare della complessità del modello, diventa sempre più difficile ottimizzarlo e diventa più incline all’overfitting. Inoltre, i modelli più grandi richiedono più risorse computazionali e tempo per l’addestramento, rendendoli meno pratici per le applicazioni reali.
Un altro limite significativo dei modelli di ridimensionamento riguarda la loro robustezza e generalizzabilità. La robustezza si riferisce alla capacità di un modello di funzionare in modo efficace anche di fronte a input rumorosi o contraddittori. La generalizzabilità si riferisce alla capacità di un modello di funzionare bene su dati che non ha mai visto durante l’addestramento.
Come i modelli diventano più complessi, diventano più suscettibili agli attacchi avversari, rendendoli meno robusti. Inoltre, i modelli più grandi tendono a memorizzare i dati di addestramento anziché apprendere i modelli sottostanti, compromettendo le prestazioni di generalizzazione.
L’interpretabilità e la spiegabilità sono essenziali per comprendere come un modello effettua previsioni. Tuttavia, all’aumentare della complessità dei modelli, i loro meccanismi interni diventano sempre più opachi, rendendo difficile interpretare ed spiegare le decisioni. Questa mancanza di trasparenza può essere problematica in settori critici come l’assistenza sanitaria o la finanza, dove il processo decisionale deve essere spiegabile e trasparente.
Un approccio per superare questi problemi potrebbe essere quello di riconsiderare cosa consideriamo dati di alta qualità e bassa qualità. Secondo Swabha Swayamdipta, professore di ML presso la University of Southern California, creare set di dati di addestramento più diversificati potrebbe aiutare a superare i limiti senza compromettere la qualità. Inoltre, secondo il professore, addestrare il modello sugli stessi dati più volte potrebbe ridurre i costi e utilizzare i dati in modo più efficiente.
Questi approcci possono ritardare il problema, ma l’utilizzo ripetuto degli stessi dati per addestrare un modello aumenta il rischio di overfitting. Pertanto, abbiamo bisogno di strategie efficaci per affrontare il problema della scarsità di dati a lungo termine. Quali sono, quindi, alcune alternative per l’alimentazione dei modelli con semplicemente più dati?
Un approccio proposto è JEPA (Joint Empirical Probability Approximation), un metodo di apprendimento automatico proposto da Yann LeCun. Si differenzia dai metodi tradizionali poiché utilizza distribuzioni di probabilità empiriche per modellare i dati e fare previsioni.
Nei metodi tradizionali, il modello è progettato per adattarsi a un’equazione matematica basata su ipotesi sulla distribuzione sottostante dei dati. Invece, con JEPA, il modello apprende direttamente dai dati attraverso l’approssimazione empirica della distribuzione. Questo approccio prevede la suddivisione dei dati in sottoinsiemi e la stima delle distribuzioni di probabilità per ciascun sottoinsieme. Successivamente, queste distribuzioni vengono combinate per formare una distribuzione di probabilità congiunta utilizzata per effettuare previsioni. JEPA è in grado di gestire dati complessi e multidimensionali e adattarsi ai modelli di dati in evoluzione.
Un altro approccio consiste nell’utilizzare tecniche di aumento dei dati. Queste tecniche implicano la modifica dei dati esistenti per creare nuovi dati. Ciò può essere realizzato attraverso operazioni come ribaltamento, rotazione, ritaglio o aggiunta di rumore alle immagini. L’aumento dei dati può ridurre l’overfitting e migliorare le prestazioni