L’intelligenza artificiale sta affrontando una sfida interna: l’autoconsumo. Internet è diventato una sorta di discarica per l’intelligenza artificiale, e i modelli addestrati sul web si stanno nutrendo degli stessi dati prodotti dai loro simili. Questo fenomeno viene definito “cannibalismo dei dati”.
In un articolo pubblicato su The New Yorker, l’autore di fantascienza di fama mondiale Ted Chiang ha messo in evidenza i pericoli delle copie di intelligenza artificiale che si replicano come fotocopie digitali. Ha paragonato questo problema all’effetto JPEG, in cui ogni copia successiva perde in qualità, rivelando artefatti indesiderati. Quando i confini tra le repliche dell’IA diventano sfocati, ci si chiede cosa succederà quando i contenuti generati dall’IA inizieranno a proliferare su Internet, e i modelli di intelligenza artificiale si alleneranno su di essi anziché sui contenuti principalmente creati dagli esseri umani.
Recenti scoperte da parte di ricercatori britannici e canadesi hanno rivelato un fenomeno chiamato “collasso del modello” nei modelli generativi di intelligenza artificiale. Questo processo di degradazione si verifica quando i modelli imparano dai dati generati da altri modelli, portando a una progressiva perdita di una rappresentazione accurata della vera distribuzione dei dati. Sorprendentemente, questo problema sembra inevitabile, anche quando le condizioni per un apprendimento a lungo termine sembrano ottimali.
Ross Anderson, professore di ingegneria della sicurezza presso l’Università di Cambridge e coautore di un documento di ricerca sul “collasso del modello”, ha sottolineato che Internet rischia di essere sommersa da contenuti insignificanti, simile alla diffusione dei rifiuti di plastica negli oceani. Questa sovrabbondanza di contenuti potrebbe ostacolare la formazione di nuovi modelli di intelligenza artificiale attraverso il web scraping, favorendo le aziende che già hanno accumulato grandi quantità di dati o che controllano interfacce umane su vasta scala. Ha citato anche il recente caso di Internet Archive, in cui le startup di intelligenza artificiale stavano estraendo aggressivamente il sito web per ottenere preziosi dati di addestramento, mettendo in luce ulteriormente questa preoccupazione.
Secondo un recente rapporto di NewsGuard, un’organizzazione di ricerca sui media, si sta sviluppando una preoccupante tendenza in cui i siti web vengono riempiti di contenuti generati dall’intelligenza artificiale al fine di attirare inserzionisti. Il rapporto rivela che oltre 140 marchi di fama finiscono per pagare inconsapevolmente annunci pubblicitari visualizzati su siti web alimentati da contenuti scritti dall’intelligenza artificiale. Questa crescente proliferazione di materiale spam generato dall’intelligenza artificiale rappresenta una minaccia per le stesse aziende responsabili di questi modelli. Con l’aumentare dei dati di addestramento saturati di contenuti prodotti dall’intelligenza artificiale, sorgono preoccupazioni riguardo alla riduzione dell’utilità dei modelli linguistici.
“Il problema potrebbe portare a implicazioni ancora più gravi, come la discriminazione basata sul genere, l’etnia o altri attributi sensibili”, ha affermato Ilia Shumailov, ricercatore presso il gruppo di Machine Learning Applicato e Teorico dell’Università di Oxford. Ha sottolineato che l’IA generativa potrebbe imparare a produrre risposte che mostrano una certa parzialità, ad esempio, verso una razza, dimenticando che ne esistono altre.
I modelli attuali sono già stati criticati dagli esperti di etica dell’IA per la loro mancanza di inclusività. Nel 2021, un gruppo di ricercatori ha evidenziato il problema dei modelli linguistici che mostrano sistematicamente pregiudizi. Anders Søgaard, professore presso il Dipartimento di Informatica dell’UCPH e autore principale dello studio, ha spiegato che questi modelli si allineano meglio con il linguaggio utilizzato dagli uomini bianchi di età inferiore ai 40 anni e con un’istruzione limitata, mostrando invece un allineamento più debole con il linguaggio dei giovani uomini non bianchi. Questa scoperta sottolinea la necessità urgente di affrontare e correggere i pregiudizi all’interno dei modelli linguistici per garantire equità e inclusività per tutti.
Mentre alcune aziende stanno lavorando per sviluppare un’intelligenza artificiale più inclusiva, come il set di dati “Casual Conversations v2” di Meta, basato sul consenso e open source, che contiene monologhi registrati, c’è anche il caso di Google che ha fatto notizia per ragioni meno positive, come il licenziamento dell’esperta di etica dell’IA, Timnit Gebru, seguito dalle dimissioni dell’intero team che ha descritto Google come un’organizzazione con una visione tecnologica ristretta.
Nonostante i modelli linguistici presentino una lunga lista di difetti etici, vantano anche una serie di vantaggi. Ad esempio, Shumailov e il suo team originariamente hanno chiamato il fenomeno del “collasso del modello” come “effetto demenza del modello”, ma hanno deciso di rinominarlo dopo le obiezioni di un collega. “Non abbiamo trovato un sostituto fino a quando non abbiamo chiesto a Bard, il quale ha suggerito cinque titoli, di cui abbiamo scelto ‘The Curse of Recursion'”, ha scritto.
Attualmente, i modelli linguistici stanno diventando parte integrante della strategia di molte aziende. Le imprese di tutti i settori stanno cercando di sfruttare appieno il potenziale dei chatbot avanzati basati su modelli linguistici come GPT-4. Sebbene sia ancora troppo presto per trarre conclusioni definitive, le aziende stanno facendo progressi nel comprendere i migliori casi d’uso per la loro attività, nonostante la confusione generata dall’IA.