I modelli di apprendimento automatico dell’IA possono superare i set di dati distorti? La capacità di generalizzazione di un modello è influenzata sia dalla diversità dei dati che dal modo in cui il modello viene addestrato, riferiscono i ricercatori.

I sistemi di intelligenza artificiale possono essere in grado di completare le attività rapidamente, ma ciò non significa che lo facciano sempre in modo equo. Se i set di dati utilizzati per addestrare i modelli di apprendimento automatico contengono dati distorti, è probabile che il sistema possa mostrare lo stesso pregiudizio quando prende decisioni nella pratica.

 
Ad esempio, se un set di dati contiene principalmente immagini di uomini bianchi, un modello di riconoscimento facciale addestrato con questi dati potrebbe essere meno accurato per donne o persone con diverse tonalità della pelle.

Un gruppo di ricercatori del MIT , in collaborazione con i ricercatori dell’Università di Harvard e di Fujitsu Ltd., ha cercato di capire quando e come un modello di apprendimento automatico è in grado di superare questo tipo di distorsione del set di dati. Hanno utilizzato un approccio delle neuroscienze per studiare come i dati di addestramento influiscono sul fatto che una rete neurale artificiale possa imparare a riconoscere oggetti che non ha mai visto prima. Una rete neurale è un modello di apprendimento automatico che imita il cervello umano nel modo in cui contiene strati di nodi interconnessi, o “neuroni”, che elaborano i dati.

Se i ricercatori stanno addestrando un modello per classificare le auto nelle immagini, vogliono che il modello impari che aspetto hanno le diverse auto. Ma se ogni Ford Thunderbird nel set di dati di addestramento viene mostrata dalla parte anteriore, quando al modello addestrato viene data l’immagine di una Ford Thunderbird ripresa di lato, potrebbe classificarla erroneamente, anche se è stata addestrata su milioni di foto di auto. Credito: Immagine per gentile concessione dei ricercatori
I nuovi risultati mostrano che la diversità nei dati di addestramento ha una grande influenza sul fatto che una rete neurale sia in grado di superare i pregiudizi, ma allo stesso tempo la diversità dei set di dati può degradare le prestazioni della rete. Mostrano anche che il modo in cui viene addestrata una rete neurale e i tipi specifici di neuroni che emergono durante il processo di addestramento possono svolgere un ruolo importante nel determinare se è in grado di superare un set di dati distorto.

“Una rete neurale può superare la distorsione del set di dati, il che è incoraggiante. Ma il punto principale qui è che dobbiamo tenere conto della diversità dei dati. Dobbiamo smettere di pensare che se raccogli una tonnellata di dati grezzi, questo ti porterà da qualche parte. In primo luogo, dobbiamo essere molto attenti a come progettiamo i set di dati”, afferma Xavier Boix, ricercatore presso il Dipartimento di scienze cerebrali e cognitive (BCS) e il Center for Brains, Minds, and Machines (CBMM), e autore senior del documento.

I coautori includono gli ex studenti laureati del MIT Timothy Henry, Jamell Dozier, Helen Ho, Nishchal Bhandari e Spandan Madan, un autore corrispondente che sta attualmente studiando un dottorato di ricerca ad Harvard; Tomotake Sasaki, un ex scienziato in visita ora ricercatore senior presso Fujitsu Research; Frédo Durand, professore di ingegneria elettrica e informatica al MIT e membro del Computer Science and Artificial Intelligence Laboratory; e Hanspeter Pfister, An Wang Professor of Computer Science presso la Harvard School of Engineering and Applied Sciences. La ricerca appare oggi su Nature Machine Intelligence .

Pensare come un neuroscienziato
Boix e i suoi colleghi hanno affrontato il problema della distorsione del set di dati pensando come i neuroscienziati. Nelle neuroscienze, spiega Boix, è comune utilizzare set di dati controllati negli esperimenti, ovvero un set di dati in cui i ricercatori sanno quanto più possibile sulle informazioni che contiene.

Il team ha costruito set di dati che contenevano immagini di oggetti diversi in pose diverse e ha controllato attentamente le combinazioni in modo che alcuni set di dati avessero più diversità di altri. In questo caso, un set di dati presentava una minore diversità se contiene più immagini che mostrano oggetti da un solo punto di vista. Un set di dati più diversificato aveva più immagini che mostravano oggetti da più punti di vista. Ogni set di dati conteneva lo stesso numero di immagini.

I ricercatori hanno utilizzato questi set di dati accuratamente costruiti per addestrare una rete neurale per la classificazione delle immagini, quindi hanno studiato quanto fosse in grado di identificare gli oggetti da punti di vista che la rete non vedeva durante l’addestramento (nota come combinazione fuori distribuzione).

Ad esempio, se i ricercatori stanno addestrando un modello per classificare le auto nelle immagini, vogliono che il modello impari che aspetto hanno le diverse auto. Ma se ogni Ford Thunderbird nel set di dati di addestramento viene mostrata dalla parte anteriore, quando al modello addestrato viene data l’immagine di una Ford Thunderbird ripresa di lato, potrebbe classificarla erroneamente, anche se è stata addestrata su milioni di foto di auto.

I ricercatori hanno scoperto che se il set di dati è più diversificato, se più immagini mostrano oggetti da diversi punti di vista, la rete è in grado di generalizzare meglio a nuove immagini o punti di vista. La diversità dei dati è la chiave per superare i pregiudizi, afferma Boix.

“Ma non è che una maggiore diversità di dati sia sempre migliore; c’è una tensione qui. Quando la rete neurale migliora nel riconoscere cose nuove che non ha visto, diventerà più difficile per lei riconoscere cose che ha già visto”, afferma.

Testare i metodi di allenamento
I ricercatori hanno anche studiato metodi per addestrare la rete neurale.

Nell’apprendimento automatico, è comune addestrare una rete per eseguire più attività contemporaneamente. L’idea è che se esiste una relazione tra i compiti, la rete imparerà a eseguirli meglio se li apprende insieme.

Ma i ricercatori hanno scoperto che è vero il contrario: un modello addestrato separatamente per ciascuna attività è stato in grado di superare i pregiudizi molto meglio di un modello addestrato per entrambe le attività insieme.

“I risultati sono stati davvero sorprendenti. In effetti, la prima volta che abbiamo fatto questo esperimento, abbiamo pensato che fosse un bug. Ci sono volute diverse settimane per renderci conto che era un risultato reale perché era così inaspettato”, dice.

Si sono tuffati più a fondo nelle reti neurali per capire perché ciò accade.

Hanno scoperto che la specializzazione neuronale sembra svolgere un ruolo importante. Quando la rete neurale viene addestrata a riconoscere gli oggetti nelle immagini, sembra che emergano due tipi di neuroni: uno specializzato nel riconoscimento della categoria dell’oggetto e un altro specializzato nel riconoscimento del punto di vista.

Quando la rete viene addestrata per eseguire compiti separatamente, quei neuroni specializzati sono più importanti, spiega Boix. Ma se una rete è addestrata a svolgere entrambi i compiti contemporaneamente, alcuni neuroni si diluiscono e non si specializzano per un compito. Questi neuroni non specializzati hanno maggiori probabilità di confondersi, dice.

“Ma la prossima domanda ora è: come sono arrivati ​​lì questi neuroni? Alleni la rete neurale e loro emergono dal processo di apprendimento. Nessuno ha detto alla rete di includere questi tipi di neuroni nella sua architettura. Questa è la cosa affascinante”, dice.

Questa è un’area che i ricercatori sperano di esplorare con il lavoro futuro. Vogliono vedere se riescono a forzare una rete neurale a sviluppare neuroni con questa specializzazione. Vogliono anche applicare il loro approccio a compiti più complessi, come oggetti con trame complicate o illuminazioni varie.

Boix è incoraggiato dal fatto che una rete neurale possa imparare a superare i pregiudizi e spera che il loro lavoro possa ispirare gli altri a essere più attenti ai set di dati che stanno utilizzando nelle applicazioni di intelligenza artificiale.

Questo lavoro è stato sostenuto, in parte, dalla National Science Foundation, da un Google Faculty Research Award, dal Toyota Research Institute, dal Center for Brains, Minds, and Machines, Fujitsu Research e MIT-Sensetime Alliance on Artificial Intelligence.

Di ihal