Una tecnica efficiente migliora l’affidabilità dei modelli di apprendimento automatico
Documento: “Apprendimento dell’incertezza post-hoc utilizzando una meta-modalità Dirichlet”
Il metodo consente a un modello di determinare la sua fiducia in una previsione, senza utilizzare dati aggiuntivi e risorse di calcolo molto inferiori rispetto ad altri metodi.
Vengono utilizzati potenti modelli di apprendimento automatico per aiutare le persone ad affrontare problemi difficili come l’identificazione di malattie nelle immagini mediche o il rilevamento di ostacoli stradali per veicoli autonomi. Ma i modelli di apprendimento automatico possono commettere errori, quindi in contesti ad alto rischio è fondamentale che gli esseri umani sappiano quando fidarsi delle previsioni di un modello.
La quantificazione dell’incertezza è uno strumento che migliora l’affidabilità di un modello; il modello produce un punteggio insieme alla previsione che esprime un livello di confidenza che la previsione è corretta. Sebbene la quantificazione dell’incertezza possa essere utile, i metodi esistenti in genere richiedono il riaddestramento dell’intero modello per conferirgli tale capacità. La formazione comporta la visualizzazione di un modello di milioni di esempi in modo che possa apprendere un’attività. La riqualificazione richiede quindi milioni di nuovi input di dati, che possono essere costosi e difficili da ottenere, e utilizza anche enormi quantità di risorse di calcolo.
I ricercatori del MIT e del MIT-IBM Watson AI Lab hanno ora sviluppato una tecnica che consente a un modello di eseguire una quantificazione dell’incertezza più efficace, utilizzando molte meno risorse di calcolo rispetto ad altri metodi e nessun dato aggiuntivo. La loro tecnica, che non richiede all’utente di riaddestrare o modificare un modello, è sufficientemente flessibile per molte applicazioni.
La tecnica prevede la creazione di un modello complementare più semplice che assista il modello di apprendimento automatico originale nella stima dell’incertezza. Questo modello più piccolo è progettato per identificare diversi tipi di incertezza, che possono aiutare i ricercatori ad approfondire la causa principale di previsioni imprecise.
“La quantificazione dell’incertezza è essenziale sia per gli sviluppatori che per gli utenti di modelli di machine learning. Gli sviluppatori possono utilizzare le misurazioni dell’incertezza per aiutare a sviluppare modelli più robusti, mentre per gli utenti può aggiungere un ulteriore livello di fiducia e affidabilità durante la distribuzione dei modelli nel mondo reale. Il nostro lavoro porta a una soluzione più flessibile e pratica per la quantificazione dell’incertezza”, afferma Maohao Shen, uno studente laureato in ingegneria elettrica e informatica e autore principale di un articolo su questa tecnica.
Shen ha scritto il documento con Yuheng Bu, un ex postdoc presso il Research Laboratory of Electronics (RLE) che ora è assistente professore presso l’Università della Florida; Prasanna Sattigeri, Soumya Ghosh e Subhro Das, membri dello staff di ricerca presso il MIT-IBM Watson AI Lab; e l’autore senior Gregory Wornell, Sumitomo Professor in Engineering che guida il Signals, Information, and Algorithms Laboratory RLE ed è membro del MIT-IBM Watson AI Lab. La ricerca sarà presentata alla Conferenza AAAI sull’Intelligenza Artificiale.
Quantificare l’incertezza
Nella quantificazione dell’incertezza, un modello di apprendimento automatico genera un punteggio numerico con ciascun output per riflettere la sua fiducia nell’accuratezza di tale previsione. Incorporare la quantificazione dell’incertezza costruendo un nuovo modello da zero o riaddestrando un modello esistente in genere richiede una grande quantità di dati e un calcolo costoso, che spesso è poco pratico. Inoltre, i metodi esistenti a volte hanno la conseguenza non intenzionale di degradare la qualità delle previsioni del modello.
I ricercatori del MIT e del MIT-IBM Watson AI Lab si sono quindi concentrati sul seguente problema: dato un modello preaddestrato, come possono consentirgli di eseguire un’efficace quantificazione dell’incertezza?
Risolvono questo problema creando un modello più piccolo e più semplice, noto come metamodello, che si collega al modello più grande e preaddestrato e utilizza le funzionalità che il modello più grande ha già appreso per aiutarlo a effettuare valutazioni di quantificazione dell’incertezza.
“Il metamodello può essere applicato a qualsiasi modello preaddestrato. È meglio avere accesso agli interni del modello, perché possiamo ottenere molte più informazioni sul modello base, ma funzionerà anche se hai solo un output finale. Può ancora prevedere un punteggio di affidabilità”, afferma Sattigeri.
Progettano il metamodello per produrre l’output di quantificazione dell’incertezza utilizzando una tecnica che include entrambi i tipi di incertezza: incertezza dei dati e incertezza del modello. L’incertezza dei dati è causata da dati corrotti o etichette imprecise e può essere ridotta solo correggendo il set di dati o raccogliendo nuovi dati. Nell’incertezza del modello, il modello non è sicuro di come spiegare i nuovi dati osservati e potrebbe fare previsioni errate, molto probabilmente perché non ha visto un numero sufficiente di esempi di addestramento simili. Questo problema è un problema particolarmente impegnativo ma comune quando vengono distribuiti i modelli. Nelle impostazioni del mondo reale, spesso incontrano dati diversi dal set di dati di addestramento.
“L’affidabilità delle tue decisioni è cambiata quando usi il modello in un nuovo contesto? Vuoi un modo per avere fiducia nel fatto che funzioni in questo nuovo regime o se hai bisogno di raccogliere dati di addestramento per questo particolare nuovo ambiente “, afferma Wornell.
Convalida della quantificazione
Una volta che un modello produce un punteggio di quantificazione dell’incertezza, l’utente ha ancora bisogno di una certa sicurezza che il punteggio stesso sia accurato. I ricercatori spesso convalidano l’accuratezza creando un set di dati più piccolo, tenuto fuori dai dati di addestramento originali, e quindi testando il modello sui dati tenuti fuori. Tuttavia, questa tecnica non funziona bene nella misurazione della quantificazione dell’incertezza perché il modello può raggiungere una buona precisione di previsione pur essendo troppo sicuro di sé, afferma Shen.
Hanno creato una nuova tecnica di convalida aggiungendo rumore ai dati nel set di convalida: questi dati rumorosi sono più simili a dati fuori distribuzione che possono causare incertezza del modello. I ricercatori usano questo set di dati rumoroso per valutare le quantificazioni dell’incertezza.
Hanno testato il loro approccio osservando quanto bene un meta-modello potrebbe catturare diversi tipi di incertezza per varie attività a valle, tra cui il rilevamento fuori distribuzione e il rilevamento di errori di classificazione. Il loro metodo non solo ha superato tutte le linee di base in ogni attività a valle, ma ha anche richiesto meno tempo di formazione per raggiungere tali risultati.
Questa tecnica potrebbe aiutare i ricercatori a consentire a più modelli di apprendimento automatico di eseguire efficacemente la quantificazione dell’incertezza, aiutando in ultima analisi gli utenti a prendere decisioni migliori su quando fidarsi delle previsioni.
Andando avanti, i ricercatori vogliono adattare la loro tecnica a nuove classi di modelli, come modelli di linguaggio di grandi dimensioni che hanno una struttura diversa rispetto a una rete neurale tradizionale, afferma Shen.
Il lavoro è stato finanziato, in parte, dal MIT-IBM Watson AI Lab e dalla US National Science Foundation.
Scritto da Adam Zewe, ufficio stampa del MIT