L’IA generativa ha fatto grandi passi avanti questa settimana con molte novità. Lunedì, Google ha annunciato un’API PaLM e nuove integrazioni in Google Workspace. Martedì, OpenAI ha sorprendentemente rilasciato il modello GPT-4, insieme a Claude di Anthropic. Invece, Microsoft ha annunciato Copilot 365 giovedì, affermando che cambierà il modo di lavorare. Tuttavia, il CEO di OpenAI, Sam Altman, ha dichiarato che la società è un po’ spaventata da tutto questo.

A distanza di due anni dal documento “On the Dangers of Stochastic Parrots”, che ha portato al licenziamento di Timnit Gebru e Margaret Mitchell, i ricercatori hanno deciso di dare uno sguardo indietro al documento che ha prefigurato i dibattiti sui rischi dei modelli linguistici come GPT-4. Secondo il documento, un modello linguistico è un “pappagallo stocastico” che ricuce sequenze linguistiche casuali senza alcun riferimento al significato.

Il documento ha anche sostenuto che gran parte del testo utilizzato per costruire GPT-3 proviene da forum che non includono le voci di donne, anziani e gruppi emarginati, portando inevitabilmente a pregiudizi che influenzano le decisioni dei sistemi costruiti su di essi.

Nonostante ciò, non è stato allegato alcun documento di ricerca al lancio di GPT-4 che condivida i dettagli sulla sua architettura, le dimensioni del modello, l’hardware, il calcolo dell’addestramento, la costruzione del set di dati o il metodo di addestramento. In un’intervista con ABC News, Altman ha ammesso i rischi del “problema delle allucinazioni” che potrebbero verificarsi con il modello.

I ricercatori hanno condotto una serie di discussioni virtuali venerdì per celebrare il documento originale, sottolineando le lezioni che la comunità dell’IA dovrebbe tenere a mente oggi, come la cura nella selezione dei set di dati, la valutazione dell’approccio pianificato e la documentazione attenta dei set di dati.

Inoltre, i ricercatori hanno sottolineato l’importanza della trasparenza dei dati di origine negli LLM, specialmente quando OpenAI ha detto “è una questione di sicurezza non dire alla gente quali sono questi dati”. La persona media deve essere più consapevole dell’importanza di questa tecnologia e delle questioni relative allo sfruttamento dei lavoratori e alla moderazione dei contenuti coinvolte nella formazione di ChatGPT e altri LLM.

Il documento originale ha anche evidenziato la necessità di prestare attenzione ai costi ambientali e finanziari dell’addestramento dei modelli, nonché alla valutazione dell’adeguatezza dell’approccio pianificato in base agli obiettivi di ricerca e agli interessi delle parti interessate.

I ricercatori hanno ammesso di non aver visto le questioni relative allo sfruttamento dei lavoratori e alla moderazione dei contenuti coinvolte nella formazione di ChatGPT e altri LLM, che sono diventati problemi sempre più rilevanti negli ultimi anni. Tuttavia, hanno sottolineato l’importanza di rendere più percepibili queste questioni per la persona media e di essere più trasparenti sui dati di origine utilizzati per l’addestramento dei modelli.

In conclusione, il documento “On the Dangers of Stochastic Parrots” fornisce molte lezioni importanti per la comunità dell’IA che dovrebbero essere tenute a mente oggi, in particolare riguardo alla selezione dei set di dati, all’adeguatezza dell’approccio pianificato, alla trasparenza dei dati di origine e alle questioni relative allo sfruttamento dei lavoratori e alla moderazione dei contenuti. La comunità dell’IA dovrebbe considerare questi aspetti in modo più approfondito al fine di garantire un uso etico e responsabile dell’IA generativa.

Di Fantasy