L’anello mancante dell’apprendimento autosupervisionato
La scarsità di dati è vista come un importante collo di bottiglia per il progresso dell’IA, ma Yann LeCun di MetaAI la pensa diversamente.
 
Un ottimo esempio di apprendimento autocontrollato è il modo in cui gli esseri umani apprendono. Impariamo dall’esperienza e vediamo il mondo che ci circonda. Questo può essere fatto attraverso la sperimentazione, l’osservazione e i test. In una recente intervista, il guru dell’apprendimento autocontrollato Yann LeCun ha spiegato perché tali metodi sono fondamentali per il futuro dell’intelligenza artificiale. 

Fornendoci il contesto di un’equivalenza umana, LeCun ha affermato che l’essere umano medio ha la capacità di elaborare circa dieci immagini al secondo in un arco di 100 millisecondi. Quando gli esseri umani hanno cinque anni, hanno già visto circa un miliardo di fotogrammi. È interessante notare che Google, Instagram e YouTube producono la stessa quantità di immagini in ore. “Abbiamo più dati di quanti ne possiamo utilizzare, ma non sappiamo come utilizzarli”, ha affermato LeCun, sullo sfondo di alcune delle sfide affrontate dai modelli di apprendimento auto-supervisionato. 

Limiti dell’apprendimento auto-supervisionato 
Se si guarda all’evoluzione dei modelli di apprendimento con supervisione, inizialmente è entrata in scena in risposta alle sfide poste dai modelli di apprendimento con supervisione. Ciò include il trasporto di dati etichettati, che è costoso e talvolta praticamente impossibile. Di conseguenza, da una visione puramente pragmatica delle applicazioni a breve termine, c’è un’enorme spinta a implementare modelli di apprendimento auto-supervisionato più potenti. 

 
Ma, d’altra parte, i modelli auto-supervisionati affrontano un problema molto più grande di essere caricati con dati di scarsa qualità, oltre al ridimensionamento dei modelli in quanto hanno la possibilità di essere addestrati su dati etichettati in modo errato, portando a maggiori bias e risultati falsi. 

Ma LeCun dice il contrario. Ritiene che il problema principale non sia l’indisponibilità dei dati, ma il modo in cui i sistemi di apprendimento possono trarre vantaggio dai dati disponibili. Ad esempio, la quantità di esposizione alla lingua di cui un bambino ha bisogno per imparare la lingua è piuttosto piccola rispetto ai miliardi di parole o parti di testo a cui i modelli linguistici devono essere esposti per funzionare bene. 

Allo stesso modo, quando si tratta di giochi come Chess o Go, che sono progettati per essere difficili per gli esseri umani, le macchine che utilizzano l’apprendimento per rinforzo possono fare bene. Ma raggiungere un’impresa del genere richiede enormi dati equivalenti a diverse vite di gioco a tempo pieno da parte degli umani. In poche parole, le macchine non sono molto efficienti nell’utilizzo dei dati. Un buon modo per progredire qui, secondo LeCun, sarà scoprire nuovi schemi di corsa che consentano alle macchine di funzionare con meno dati. 

LeCun, in un recente tweet , ha affermato che l’impatto dei modelli auto-supervisionati è stato molto più grande di quanto avesse previsto. Il successo di modelli come ChatGPT, la generazione di text-to-anything insieme ai progressi compiuti nei modelli di ripiegamento delle proteine ​​lo attestano a sufficienza. 

Problemi a bizzeffe 
L’apprendimento autosupervisionato come ideale funziona solo per grandi aziende come Meta, che possiedono terabyte di dati per addestrare modelli all’avanguardia. Inoltre, ci sono diverse sfide quando si tratta di apprendimento auto-supervisionato. In primo luogo, al contrario di un modello di apprendimento supervisionato, il modello auto-supervisionato minimizza il ruolo dell’essere umano nel processo. Ciò significa che esiste un’alta probabilità che i dati vengano etichettati in modo errato, causando errori nell’output. Inoltre, i costi dei dati errati sono stati pesanti per le aziende, con Gartner che ha affermato che, in media, le aziende perdono quasi 9,7 milioni di dollari all’anno. 

Contrariamente alle affermazioni di LeCun, diversi ricercatori percepiscono che potremmo esaurire i dati. Ad esempio, nell’analizzare la crescita delle dimensioni dei set di dati nell’apprendimento automatico, Villalobos et al hanno stimato che nei prossimi decenni lo stock totale di dati non etichettati sarà presto esaurito. Le loro proiezioni suggeriscono che entro il 2026 ci avvicineremo alla fine dei dati di alta qualità, mentre i dati di scarsa qualità dureranno in qualsiasi momento tra il 2030 e il 2050. Pertanto, la crescita dei modelli ML potrebbe rallentare a meno che l’efficienza dei dati non diventi un obiettivo o una nuova le fonti di dati sono rese disponibili. 

Leggi: Cosa sta impedendo all’IA generativa di raggiungere la crescita?

Allo stesso modo, Manu Joseph, creatore di PyTorch Tabular, ha dichiarato ad AIM : “Raccogliere più dati per addestrare LLM è una sfida poiché mancano dati di test di buona qualità e la maggior parte del testo su Internet è duplicato”.

Tuttavia, l’arduo compito dell’efficienza dei dati non è ancora una causa fallita. 

Risolvere un modello alla volta 
Prendiamo, ad esempio, uno studio recente che ha dimostrato che i grandi modelli linguistici (LLM) possono auto-migliorarsi anche con set di dati senza etichetta. Prima di questo studio, l’ultima ricerca ha mostrato che il miglioramento fondamentale delle prestazioni del modello al di sopra delle linee di base di poche riprese richiede ancora la messa a punto di un numero considerevole di set di dati supervisionati di alta qualità. Secondo lo studio, tuttavia, i modelli potrebbero migliorare le loro prestazioni sui set di dati di ragionamento addestrandosi sulle proprie etichette generate, date solo domande di input. La ricerca mostra anche che un LLM può auto-migliorarsi anche con le domande generate da sé e con i suggerimenti della Catena del Pensiero. 


Inoltre, il team di ricerca di Deepmind ha recentemente pubblicato un documento che mostra che le sue reti neurali epistemiche (ENN) consentono di mettere a punto modelli di grandi dimensioni con il 50% di dati in meno. Al di là del quadro tradizionale delle reti neurali bayesiane, il team ha introdotto gli ENN, progettati utilizzando un’epinet, che è “un’architettura che può integrare qualsiasi rete neurale convenzionale, inclusi grandi modelli pre-addestrati, e può essere addestrata con un modesto calcolo incrementale per stimare l’incertezza”. I ricercatori affermano che le ENN miglioreranno notevolmente i compromessi nella qualità delle previsioni e nel calcolo. 

Un problema importante con gli LLM, sottolineano, è che non possono distinguere l’incertezza irriducibile sul token successivo. Pertanto, il team adotta un approccio diverso, affidandosi alle stime dell’incertezza dell’epinet per aiutare i modelli a “sapere ciò che non sanno” e aumentare l’efficienza dei dati per superare gli approcci attuali al problema che generalmente richiede l’aggiunta di più dati di addestramento.

DI AYUSH JAIN da analyticsindiamag.com

Di ihal