L’era dell’IA generativa è finalmente qui. Solo sei mesi dopo l’introduzione di ChatGPT di OpenAI, già metà dei dipendenti di alcune delle principali aziende globali sta utilizzando questa tecnologia nei propri flussi di lavoro, mentre altre aziende si affrettano a offrire prodotti con AI generativa integrata.
Tuttavia, sorge una domanda preoccupante: cosa succede quando i contenuti generati dall’IA proliferano su Internet e i modelli di intelligenza artificiale iniziano ad allenarsi su di essi, anziché su contenuti generati principalmente dall’uomo?
Un gruppo di ricercatori del Regno Unito e del Canada ha affrontato questo problema e ha recentemente pubblicato un articolo sull’argomento nella rivista ad accesso aperto arXiv. I risultati dello studio indicano che l’uso di dati generati da modelli per addestrare altri modelli causa difetti irreversibili nei modelli risultanti.
I ricercatori hanno esaminato le distribuzioni di probabilità per i modelli generativi di intelligenza artificiale da testo a testo e da immagine a immagine e hanno concluso che l’apprendimento dai dati generati da altri modelli porta al collasso del modello. Nel tempo, i modelli dimenticano la vera distribuzione dei dati, producendo risposte errate e una varietà ridotta nelle loro generazioni.
Ciò significa che l’uso di contenuti generati dall’IA nel processo di addestramento dei modelli può portare a una percezione distorta della realtà. Ad esempio, se un modello viene addestrato su un set di dati di immagini di gatti, di cui solo il 10% ha il pelo blu, il modello potrebbe iniziare a rappresentare erroneamente i gatti blu come più giallastri di quanto siano in realtà. Nel corso del tempo, questo tratto distintivo del pelo blu potrebbe essere completamente eroso, portando alla distorsione delle risposte generate dal modello.
Inoltre, anche se i modelli vengono addestrati a non produrre troppe risposte ripetute, il collasso del modello può ancora verificarsi. I modelli potrebbero iniziare a inventare risposte errate per evitare la ripetizione dei dati troppo spesso.
Fortunatamente, ci sono modi per evitare il collasso del modello. Uno di questi è conservare una copia del set di dati originale creato dall’uomo e addestrare periodicamente il modello su di esso o aggiornarlo interamente partendo da zero. Un altro modo consiste nell’introdurre nuovi set di dati puliti e generati dall’uomo durante l’addestramento.
Tuttavia, questo richiederebbe un meccanismo di etichettatura di massa o un impegno da parte dei produttori di contenuti o delle aziende di intelligenza artificiale per distinguere tra contenuto generato dall’IA e contenuto generato dall’uomo. Attualmente, non esiste uno sforzo su larga scala in tal senso.
I ricercatori sottolineano l’importanza di garantire un’equa rappresentazione dei gruppi minoritari nei set di dati per evitare il collasso del modello. Ciò implica che i dati dovrebbero coprire tutti i possibili casi limite e includere i dati improbabili. Inoltre, quando si addestrano i modelli, è essenziale includere sia i vecchi dati che i nuovi, aumentando così il costo della formazione ma contrastando il collasso del modello.
In conclusione, i risultati di questo studio mettono in luce la necessità di sviluppare metodologie migliorate per mantenere l’integrità dei modelli generativi nel tempo. Rischiano di avere conseguenze significative per l’intelligenza artificiale generativa e sollecitano ulteriori ricerche per sviluppare strategie che prevenire o gestire il collasso del modello. Allo stesso tempo, sottolineano che i contenuti creati dall’uomo saranno ancora più preziosi come fonte di dati di addestramento incontaminati per l’IA in un futuro in cui gli strumenti di intelligenza artificiale generativa saranno diffusi.