Perché non creiamo un’iniziativa di lavori pubblici per creare dati imparziali per l’intelligenza artificiale?
I dati distorti creano AI distorti. I nostri sistemi di intelligenza artificiale oggi sono distorti non a causa di limitazioni algoritmiche, ma perché i dati utilizzati per addestrare quegli algoritmi codificano la miriade di pregiudizi dei nostri mondi umani e naturali. Se siamo così seri nel combattere i pregiudizi relativi all’IA, perché le aziende non spendono i soldi per creare set di dati minimamente distorti? Che cosa accadrebbe se prendessimo una pagina dal famoso sforzo fotografico del governo americano per la sicurezza della Farm School durante gli anni ’30 per creare quella che sarebbe una collaborazione “pubblica” del governo degli Stati Uniti e di tutte le principali società tecnologiche per finanziare congiuntamente una massiccia iniziativa che pagherebbe fotografi, etnografi, storici, archivisti, curatori, scienziati di dati, giornalisti, studiosi e cittadini si uniscono per creare un unico enorme archivio di dati minimamente distorti che possono essere costruiti oggi, rappresentando tutti i possibili dati demografici, culture, geografie, sfondi ed esperienze provenienti da ogni angolo del globo? Il costo sarebbe sostanziale, ma il beneficio risultante per il futuro del nostro mondo sempre più guidato dall’IA sarebbe straordinario.
Alla base di ogni conversazione sul pregiudizio di intelligenza artificiale c’è una discussione sul pregiudizio dei dati. Per quanto stimolanti possano essere gli algoritmi di deep learning, essi imparano solo ciò che viene loro assegnato, cioè più i loro dati di allenamento sono distorti, più i loro risultati sono distorti. In assenza di qualsiasi concetto di “valori morali”, gli algoritmi rispecchiano ciò che vedono, piuttosto che elevarsi al di sopra di esso.
Certo, è fondamentale riconoscere che non esistono dati imparziale. Tutti i dati hanno bias. La chiave è creare dati “minimamente distorti” che riducano il più possibile il pregiudizio lungo le dimensioni più corrosive per il funzionamento della società.
Tutto ciò solleva la questione del motivo per cui abbiamo dati distorti in primo luogo? Perché i set di dati che usiamo per addestrare i sistemi IA sono così drammaticamente distorti lungo dimensioni demografiche, culturali, geografiche e altre dimensioni critiche?
Non ci sono limiti tecnologici all’inclusività. Una telecamera può catturare un’elite della valle benestante con la stessa facilità con cui può catturare un contadino di sussistenza in un remoto villaggio rurale dall’altra parte del mondo. Un set di dati di addestramento per il riconoscimento vocale può altrettanto facilmente contenere campioni di altoparlanti da una lingua di 1.000 altoparlanti in quanto può utilizzare un linguaggio di 10 milioni di altoparlanti. Perché le lingue meglio rappresentate nel mondo digitale e meglio supportate dai prodotti AI sono quelle parlate dai cittadini economicamente più validi del mondo?
Le aziende sostengono che i loro dispositivi intelligenti possono supportare solo così tante lingue perché quelle sono le uniche lingue per cui i dati di addestramento esistono in quantità sufficienti. Sostengono che la traduzione automatica può supportare solo un centinaio di lingue per le quali esiste un testo parallelo sufficiente. Sostengono che gli algoritmi di visione artificiale possono supportare solo un piccolo numero di culture e aree geografiche per le quali esistono sufficienti riferimenti fotografici.
Perso in questi argomenti è la domanda più importante di tutti: perché non escono e creano i dati di cui hanno bisogno?
Se non ci sono abbastanza registrazioni vocali di persone che parlano una particolare lingua, perché non pagare i linguisti a lavorare con quelle comunità per raccogliere un numero sufficiente di registrazioni vocali? Se non ci sono abbastanza testi paralleli, perché non assumere un esercito di traduttori per produrre una biblioteca di riferimento sufficientemente grande? Se non ci sono abbastanza fotografie, perché non assumere fotografi locali in ogni città del mondo per uscire e fotografare tutto ciò che li circonda per creare la diversità necessaria?
La creazione di nuovi set di dati da zero avrebbe l’ulteriore vantaggio di essere in grado di curare attentamente la loro composizione per garantire pari diversità in più dimensioni possibili.
Allora perché no?
La risposta, come ho notato all’inizio di questa settimana, si riduce all’economia .
Creare nuovi set di dati costa un sacco di soldi. Le aziende investono nell’assicurare sufficiente diversità e inclusività dei loro dati per coprire i loro clienti economicamente più validi. Estendersi al di là degli utenti monetizzati e monetizzabili nel resto del mondo non ha senso economico per la maggior parte delle aziende.
Perché dovrebbero spendere milioni di dollari per costruire il supporto per una lingua parlata da poche centinaia di persone che non contribuiranno mai a restituire nemmeno una piccola parte delle entrate necessarie per recuperare quel costo?
Questa è la domanda alla base del perché oggi abbiamo un’IA influenzata.
Una potente forza trainante dietro la distorsione dei dati è che le aziende tecnologiche oggi considerano i dati come qualcosa che dovrebbero ottenere gratuitamente. Le società di social media raccolgono i nostri dati e li considerano come la loro proprietà economica da monetizzare esclusivamente.
Questa pronta disponibilità di dati significa che le aziende vedono i dati come l’aria: qualcosa di fondamentale per la vita ma che non ci sogneremmo mai di pagare.
A sua volta, questo significa che i nostri sistemi di IA oggi sono in gran parte basati su dati liberi, piuttosto che su dati buoni. Di fronte a una scelta tra un set di dati fortemente distorto, ma gratuito e il costo di creare un nuovo set di dati curati che minimizza i pregiudizi, quasi ogni azienda sceglierà il set di dati gratuito e cercherà di fare un paio di filtri per fare quello che possono fare livelli di bias leggermente più tollerabili.
In altre parole, la ragione per cui oggi abbiamo un’IA influenzata è che abbiamo dati distorti. Il motivo per cui abbiamo dati distorti è perché le aziende scelgono una qualità scadente ma dati gratuiti su dati di alta qualità che devono pagare.
Come cambiamo questa mentalità?
Come convincere le aziende che vale la pena pagare per dati di qualità superiore che hanno meno pregiudizi?
In particolare, in che modo aumentiamo la disponibilità di dati minimamente distorti per startup, non profit, ricercatori universitari, piccole aziende e altri che non possono permettersi di raccogliere i propri set di dati diversi?
Guardando alla storia, il governo degli Stati Uniti attraverso la sua Farm Security Administration ha finanziato la creazione di uno dei più ricchi archivi fotografici della vita americana dal 1935 al 1944. Con un mandato specifico per catturare il lato dell’America che è stato storicamente escluso dalla fotografia record, i fotografi della FSA si diffusero in tutta la nazione per “introdurre l’America agli americani”.
Di particolare interesse per la conversazione sulla parzialità dei dati è stato il mandato della FSA di concentrarsi sui sottorappresentati. Piuttosto che la vita mondana e le scene urbane che dominavano i tradizionali soggetti fotografici, i fotografi della FSA avevano il compito di coprire l’America che la maggior parte del pubblico non aveva mai visto.
Supportati dal governo degli Stati Uniti, questi fotografi sono stati in grado di concentrarsi sulla cattura dell’anima della nazione, piuttosto che concentrarsi su colpi economicamente validi che potrebbero essere venduti per il dollaro più alto. Sebbene il programma FSA non abbia operato interamente senza vincoli sui soggetti e sui messaggi veicolati dalle loro immagini, ci offre comunque uno sguardo sull’altra America che non sarebbe mai esistita senza che il governo riconoscesse l’importanza di raccontare queste storie e di pagare per crea questo incredibile archivio.
Che cosa accadrebbe se prendessimo una pagina da questa visione e lanciassimo un’iniziativa di “lavori pubblici” dei giorni nostri per creare un massiccio archivio minimamente parziale di dati sulla società per addestrare tutti i tipi di sistemi di intelligenza artificiale? Immagina un progetto che ha permesso ai fotografi locali di dilettarsi in tutto il mondo catturando la vita quotidiana in ogni angolo del pianeta, traducendo in massa opere di lingue sottorappresentate e costruendo vasti archivi vocali dei loro madrelingua. Ciò ha creato insiemi di dati di guida autonomi che rappresentano strade da tutti gli angoli del mondo, piuttosto che il mondo idealizzato delle autostrade americane. Questo ha creato set di dati che codificano pratiche culturali, sistemi legali, architettura, arte e ogni altro aspetto del mondo umano e naturale.
La creazione di questi set di dati sarebbe finanziata congiuntamente dal governo e dalle principali società, con i set di dati risultanti disponibili gratuitamente per il mondo.
Soprattutto, in un immenso allontanamento da molti set di dati di addestramento AI attuali, questi set di dati sarebbero stati costruiti eticamente.
Anziché raccogliere in massa i post sui social media, raschiare gallerie fotografiche personali, pagare estranei casuali su Amazon Mechanical Turk per fornire dati personali, utilizzare termini di servizio legali per sfruttare con la forza le informazioni dei clienti privati o una qualsiasi altra miriade di pratiche eticamente e giuridicamente discutibili utilizzate per creare gli archivi di dati di oggi, queste raccolte metterebbero prima l’etica.
Le leggi e le pratiche culturali locali sarebbero rispettate. I contributori sarebbero pienamente consapevoli di come i loro dati saranno utilizzati e potrebbe anche essere concesso il diritto di approvare o rifiutare determinate applicazioni. Ad esempio, potrebbero negare il diritto di usare il loro viso per addestrare modelli di riconoscimento facciale venduti alle forze dell’ordine, ma consentire loro di utilizzare i sistemi di chiusura delle porte di casa. Ogni contributore potrebbe vedere l’elenco completo di applicazioni che hanno fatto uso dei propri dati in qualche modo, consentendo loro di capire il loro contributo all’IA.
Avere un enorme archivio di dati minimamente distorti liberi davvero altera la natura tendenziosa dell’IA?
I dati gratuiti rimuovono l’ economicodisincentivo per affrontare la distorsione dei dati. D’altra parte, ci sarebbero ancora driver economici che lottano contro la minimizzazione del pregiudizio. Le aziende che cercano di creare i modelli di esecuzione più piccoli e più veloci potrebbero ancora rifiutarsi di gonfiare i propri modelli con il supporto di dati demografici, culture e situazioni che non sono economicamente importanti per il loro modello di business. L’estensione dei loro modelli al di là della loro ristretta fascia di clientela target potrebbe rendere quei modelli meno precisi per i loro clienti a seconda delle specifiche tecniche del loro algoritmo di deep learning. D’altra parte, la diffusa disponibilità di dati minimamente distorti aumenterebbe l’attenzione pubblica e legislativa delle aziende che hanno scelto di continuare a costruire modelli distorti. Per le aziende che volevano sinceramente indirizzarsi, avrebbero finalmente i dati per farlo.
Mettendo tutto questo insieme, abbiamo pregiudizi per l’intelligenza artificiale perché le aziende nel loro insieme non vogliono spendere i soldi per creare nuovi set di dati che riducano al minimo i pregiudizi. Preferiscono usare set di dati gratuiti altamente distorti piuttosto che pagare per creare dataset curati che riducono esplicitamente la distorsione dei tasti. Questo ci ricorda ancora una volta che il driver alla base dell’influenza aviaria è l’ economia .
Che cosa accadrebbe se adottassimo un modello di lavori pubblici per creare un archivio pubblico finanziato congiuntamente con set di dati minimamente prevenuti che coprano tutte le principali aree di interesse dell’IA? Sostituendo i dati distorti liberi con dati minimamente distorti, potremmo avere un enorme impatto sull’influsso AI e porre ulteriori pressioni non economiche su quelle aziende che continuano a enfatizzare la distorsione nei loro sistemi.
Alla fine, se l’intelligenza artificiale parziale proviene da dati distorti, dobbiamo chiederci perché non spendiamo i soldi per ridurre questo pregiudizio.
Forse, facendo ripartire lo spazio dell’IA con un progetto di lavori pubblici per dati minimamente distorti, potremmo fondamentalmente cambiare l’economia del pregiudizio dell’IA.