Pericolo! Stai usando dati sbagliati per insegnare l’IA!


I dati sono il carburante per l’intelligenza artificiale. Più dati abbiamo, meglio l’IA imparerà e troverà quegli schemi nascosti, giusto? Purtroppo non così tanto. Abbiamo la capacità di raccogliere MOLTI dati. Considera i quasi 31 miliardi di dispositivi IoT che producono informazioni per il consumo delle macchine . Tuttavia, molti dati non si traducono in dati validi . In quanto esseri umani, non abbiamo compreso appieno qual è la fetta di dati che crea il valore reale nello sviluppo di soluzioni di IA. Al centro di questa sfida, abbiamo tre principali ostacoli: 1) capire quali sono i dati reali, 2) validità della convinzione e 3) pregiudizio implicito.


Allora, cosa sono i “dati reali?” In poche parole, sono i dati di cui la macchina ha veramente bisogno per apprendere ed eseguire il lavoro. Siamo caduti nella trappola che avere i big data ci fornisce le informazioni chiave per consentire l’apprendimento dell’IA. Il problema, tuttavia, è che più dati possono portare a più interpretazioni errate e opportunità di bias. Considera ciò che ha condiviso il dottor De Kai dell’Università della scienza e della tecnologia di Hong Kong: serve un sistema di intelligenza artificiale che sente circa 100 milioni di parole per imparare una lingua, ma un bambino umano ha bisogno solo di ascoltare circa 15 milioni di parole per impararla.Perché c’è un tale delta? Non lo sappiamo completamente, ma c’è una forte argomentazione secondo cui sono parole e frasi particolari che dimostrano davvero le complessità del linguaggio, non solo un volume puro. Ciò fa pensare che il segreto risieda nei dati medi , non nei big data. In altre parole, il vero sviluppo delle abilità di intelligenza artificiale sta nell’utilizzo dei dati critici non solo di grandi volumi.

Per vedere la potenza dei dati medi, possiamo guardare al rilevamento di notizie false. Sfortunatamente, ci sono molte notizie false in giro con una grande variabilità. Più variabilità significa più dati che l’IA deve apprendere. Tuttavia, presso l’Università di Washington, gli informatici dell’Allen Institute for AI hanno adottato un approccio diverso . Hanno creato un sistema chiamato Grover che ha imparato a scrivere notizie false in modo che possa rilevare meglio le notizie false. Per scrivere articoli di notizie false, Grover ha dovuto imparare quali sono le notizie reali leggendo articoli di notizie reali, che hanno molta meno variabilità delle notizie false. In effetti, attraverso la loro strategia di formazione, hanno semplificato la quantità di dati necessari e sono passati da grandi esigenze di big data a un set di dati ridotto.


Gli ostacoli alla validità della fede sono più complicati da gestire. Fondamentalmente, ogni persona ha dei presupposti che consideriamo veri e che confermiamo come un fatto. Ad esempio, di che colore è il sole? La maggior parte delle persone direbbe giallo, forse rosso o arancione al tramonto. Tuttavia, il sole è effettivamente bianco . ( Scusate i fan di Superman, ma non dovrebbe davvero avere alcun potere da un sole giallo.) La maggior parte delle persone crede che il sole sia giallo perché l’atmosfera terrestre diffonde i colori a lunghezza d’onda corta, quindi finisce per sembrare giallo. Qual è il grosso problema, giusto? Immagina di insegnare ai sistemi di intelligenza artificiale che il sole è giallo come un dato di fatto. In che modo ciò influirebbe sul suo apprendimento quando cerca di conciliare immagini di tramonti rosso-arancio? L’IA trarrebbe false conclusioni che potrebbero avere un potenziale impatto su altri lavori in astronomia? Potrebbe creare false impressioni su dove potrebbe esistere la vita nell’universo? Pensa ad altre idee sbagliate che abbiamo come diverse parti della nostra lingua rilevano gusti diversi (sono tutte sparse sulla nostra lingua), le arachidi sono noci (in realtà sono legumi), lo zucchero rende i bambini iperattivi (scusate, genitori, non è vero ), le persone hanno cinque sensi (ce ne sono almeno nove con scienziati che credono che potrebbero essere ventuno), e la vitamina C aiuta a combattere il raffreddore (nessuna prova scientifica di ciò.) I sistemi di intelligenza artificiale imparano solo ciò che insegniamo loro. Se diciamo a una macchina che alcuni sono fatti quando è solo un’ipotesi, la nostra validità della fede limiterà, e forse corromperà, la capacità dell’IA di trovare quegli schemi nascosti che produrranno intuizioni significative.

Infine, non è un grande segreto che le persone soffrano di pregiudizi impliciti. Abbiamo tutti stereotipi inconsci (positivi o negativi) che possono distorcere le nostre percezioni e atteggiamenti su cose o persone. Sfortunatamente, i dati possono anche soffrire di pregiudizi impliciti. Immagina un futuro in cui le carriere delle persone siano scelte da un sistema di intelligenza artificiale in base alle loro prestazioni a scuola dalla scuola materna fino al dodicesimo anno. Gli stessi standard vengono applicati a ogni studente. Sembra essere giusto, vero? Ebbene, ci sono altri fattori che dovrebbero entrare in gioco? E se alcune famiglie potessero permettersi tutor mentre altre no? E il calibro generale di ogni scuola e del suo insegnante? Che ne dici di accedere a elementi come i dispositivi mobili che potrebbero aiutare a stimolare lo sviluppo della scienza e della matematica in giovane età? E il sistema giudiziario? Nell’articoloAI Taking A Knee: Azione per migliorare la parità di trattamento secondo la legge, l’autore ha discusso il vero discorso sulla creazione di giudici robot AI. C’è un pregiudizio implicito nei dati del tribunale che può causare impatti disparati? L’autore cita l’esempio di Batey e Turner, due atleti del college condannati per stupro ma condannati a pene molto diverse. Se un sistema di intelligenza artificiale dovesse dare un’occhiata a questi dati, si chiederebbe perché un Turner ha ricevuto sei mesi di prigione mentre Batey ha ricevuto quindici anni. L’intelligenza artificiale inizierebbe a guardare le differenze tra i due. Sebbene ci siano molte somiglianze, una profonda differenza è la loro etnia. Questo sarebbe un fattore determinante per l’IA? Se potesse trovare altri casi in cui i giudizi erano drasticamente diversi per le diverse etnie, allora sì, questo pregiudizio implicito diventerebbe un fattore. Questo è un problema, soprattutto perché lottiamo per vedere i nostri pregiudizi impliciti.

C’è un reale pericolo che stiamo usando dati sbagliati per addestrare i nostri sistemi di intelligenza artificiale? Si C’è. Tuttavia, ciò non significa che ogni speranza sia persa. Proprio come cerchiamo costantemente di trovare modi più efficaci per insegnare ai nostri figli, dobbiamo fare lo stesso nell’insegnamento dell’IA. Per risolvere il vero problema dei dati, dobbiamo capire meglio quali sono i dati significativi. Ciò significa allontanarsi dal segreto che si trova nei big data da qualche parte e comprendere i veri motori dell’apprendimento e dello sviluppo delle competenze. Per infrangere la validità della sfida delle credenze, dobbiamo mettere in discussione cosa siano realmente i fatti rispetto alle ipotesi. Cioè, abbiamo prove concrete che ciò in cui crediamo sia effettivamente vero. Per affrontare i pregiudizi impliciti, dobbiamo prima riconoscere che siamo di parte. Poi, le persone devono impegnarsi in una migliore diversità e inclusione per portare più prospettive al tavolo e considerare ciò che sta accadendo e i risultati che verranno generati sulla base di questi punti di vista. Affinché l’IA sia uno strumento veramente efficace per l’umanità, dobbiamo affrontare queste tre cose per assicurarci che la macchina riceva il carburante appropriato.

Di ihal