I ricercatori di Google scoprono che un problema di specificazione insufficiente trattiene molti modelli di intelligenza artificiale

Recentemente un team di ricercatori di Google ha identificato una causa comune per i fallimenti dei modelli di intelligenza artificiale, indicando la sottospecificazione come uno dei motivi principali per cui i modelli di apprendimento automatico spesso si comportano in modo abbastanza diverso nel mondo reale rispetto a durante i test e lo sviluppo.

I modelli di machine learning spesso falliscono quando si affrontano attività in un contesto reale, anche se i modelli funzionano in modo ottimale in laboratorio. Ci sono molte ragioni per cui si verifica la discrepanza tra formazione / sviluppo e prestazioni nel mondo reale. Uno dei motivi più comuni per cui i modelli di intelligenza artificiale falliscono durante le attività del mondo reale è un concetto noto come spostamento dei dati. Lo spostamento dei dati si riferisce a una differenza fondamentale tra il tipo di dati utilizzati per sviluppare un modello di apprendimento automatico e i dati inseriti nel modello durante l’applicazione. Ad esempio, i modelli di visione artificiale addestrati su dati di immagini di alta qualità avranno difficoltà a funzionare quando alimentati con dati acquisiti da telecamere di bassa qualità presenti nell’ambiente quotidiano del modello.

Secondo MIT Technology Review , un team di 40 diversi ricercatori di Google ha identificato un altro motivo per cui le prestazioni di un modello di apprendimento automatico possono variare così drasticamente. Il problema è la “sottospecificazione”, un concetto statistico che descrive problemi in cui i fenomeni osservati hanno molte possibili cause, non tutte spiegate dal modello. Secondo il responsabile dello studio Alex D’Amour, il problema è testimoniato in molti modelli di machine learning affermando che il fenomeno “accade ovunque”.

Il metodo tipico di addestramento di un modello di apprendimento automatico prevede di fornire al modello una grande quantità di dati da cui può analizzare ed estrarre modelli pertinenti. Successivamente, il modello riceve esempi che non ha visto e viene chiesto di prevedere la natura di quegli esempi in base alle caratteristiche che ha appreso. Una volta che il modello ha raggiunto un certo livello di accuratezza, la formazione è generalmente considerata completa.

Secondo il team di ricerca di Google, è necessario fare di più per garantire che i modelli possano veramente essere generalizzati ai dati non di addestramento. Il metodo classico di addestramento dei modelli di apprendimento automatico produrrà vari modelli che potrebbero superare i test, tuttavia questi modelli differiranno in piccoli modi che sembrano insignificanti ma non lo sono. A nodi diversi nei modelli verranno assegnati valori casuali diversi oppure i dati di addestramento potrebbero essere selezionati o rappresentati in modi diversi. Queste variazioni sono piccole e spesso arbitrarie e, se non hanno un impatto enorme sulle prestazioni dei modelli durante l’addestramento, sono facili da trascurare. Tuttavia, quando l’impatto di tutti questi piccoli cambiamenti si accumula, possono portare a grandi variazioni nelle prestazioni del mondo reale.

Questa sottospecificazione è problematica perché significa che, anche se il processo di formazione è in grado di produrre buoni modelli, può anche produrre un modello scadente e la differenza non si scoprirà fino a quando il modello non sarà uscito dalla produzione ed entrato in uso.

Per valutare l’impatto della sottospecificazione, il team di ricerca ha esaminato una serie di modelli diversi. Ogni modello è stato addestrato utilizzando lo stesso processo di formazione, quindi i modelli sono stati poi sottoposti a una serie di test per evidenziare le differenze di prestazioni. In un caso, 50 diverse versioni di un sistema di riconoscimento delle immagini sono state addestrate sul set di dati ImageNet. I modelli erano tutti uguali tranne che per i valori della rete neurale che erano stati assegnati in modo casuale durante l’inizio dell’addestramento. Gli stress test utilizzati per determinare le differenze nei modelli sono stati condotti utilizzando ImageNet-C, una variazione del set di dati originale costituito da immagini alterate mediante regolazione del contrasto o della luminosità. I modelli sono stati testati anche su ObjectNet, una serie di immagini che raffigurano oggetti di uso quotidiano in orientamenti e contesti insoliti.

Il team di ricerca ha scoperto che risultati simili si sono verificati quando hanno addestrato e sottoposto a stress test due diversi sistemi di PNL, nonché quando hanno testato vari altri modelli di visione artificiale. In ogni caso, i modelli divergevano selvaggiamente l’uno dall’altro anche se il processo di formazione per tutti i modelli era lo stesso.

Secondo D’Amour, i ricercatori e gli ingegneri del machine learning devono eseguire molti più stress test prima di rilasciare modelli in circolazione. Questo può essere difficile da fare, dato che gli stress test devono essere adattati a compiti specifici utilizzando dati dal mondo reale, dati che possono essere difficili da trovare per determinati compiti e contesti. Una potenziale soluzione al problema della sottospecificazione è produrre molti modelli contemporaneamente e quindi testare i modelli su una serie di attività del mondo reale, scegliendo il modello che mostra costantemente i migliori risultati. Sviluppare modelli in questo modo richiede molto tempo e risorse, ma potrebbe valerne la pena, soprattutto per i modelli di intelligenza artificiale utilizzati in contesti medici o in altre aree in cui la sicurezza è una preoccupazione primaria. Come ha spiegato D’Amour tramite MIT Technology Review:

“Dobbiamo migliorare nello specificare esattamente quali sono i nostri requisiti per i nostri modelli. Perché spesso ciò che finisce per accadere è che scopriamo questi requisiti solo dopo che il modello ha fallito nel mondo. “

Di ihal