I ricercatori creano un quadro matematico per valutare le spiegazioni dei modelli di apprendimento automatico e quantificare quanto bene le persone li comprendono.

I moderni modelli di apprendimento automatico, come le reti neurali, sono spesso definiti “scatole nere” perché sono così complessi che anche i ricercatori che li progettano non riescono a capire appieno come fanno previsioni.

Per fornire alcune informazioni, i ricercatori utilizzano metodi esplicativi che cercano di descrivere le decisioni dei modelli individuali. Ad esempio, possono evidenziare le parole in una recensione di un film che hanno influenzato la decisione del modello secondo cui la recensione era positiva.

Ma questi metodi di spiegazione non servono a nulla se gli esseri umani non riescono a capirli facilmente, o addirittura a fraintenderli. Quindi, i ricercatori del MIT hanno creato un quadro matematico per quantificare e valutare formalmente la comprensibilità delle spiegazioni per i modelli di apprendimento automatico. Questo può aiutare a individuare approfondimenti sul comportamento del modello che potrebbero non essere rilevati se il ricercatore sta valutando solo una manciata di spiegazioni individuali per cercare di comprendere l’intero modello.

“Con questo quadro, possiamo avere un quadro molto chiaro non solo di ciò che sappiamo del modello da queste spiegazioni locali, ma soprattutto di ciò che non sappiamo al riguardo”, afferma Yilun Zhou, laureato in ingegneria elettrica e informatica studente nel Computer Science and Artificial Intelligence Laboratory (CSAIL) e autore principale di un articolo che presenta questo framework.

I coautori di Zhou includono Marco Tulio Ribeiro, ricercatore senior presso Microsoft Research, e l’autrice senior Julie Shah, professoressa di aeronautica e astronautica e direttrice dell’Interactive Robotics Group in CSAIL. La ricerca sarà presentata alla Conferenza del North American Chapter dell’Association for Computational Linguistics.

 

Un modo per comprendere un modello di apprendimento automatico è trovare un altro modello che imiti le sue previsioni ma utilizzi schemi di ragionamento trasparenti. Tuttavia, i recenti modelli di rete neurale sono così complessi che questa tecnica di solito fallisce. Invece, i ricercatori ricorrono all’utilizzo di spiegazioni locali che si concentrano su input individuali. Spesso, queste spiegazioni evidenziano le parole nel testo per indicarne l’importanza per una previsione fatta dal modello.

 

Implicitamente, le persone poi generalizzano queste spiegazioni locali al comportamento generale del modello. Qualcuno potrebbe vedere che un metodo di spiegazione locale ha evidenziato le parole positive (come “memorabile”, “impeccabile” o “affascinante”) come le più influenti quando il modello ha deciso che una recensione di un film aveva un sentimento positivo. È quindi probabile che presuppongano che tutte le parole positive diano un contributo positivo alle previsioni di un modello, ma potrebbe non essere sempre così, afferma Zhou.

 

I ricercatori hanno sviluppato un framework, noto come ExSum (abbreviazione di sommario esplicativo), che formalizza quei tipi di affermazioni in regole che possono essere testate utilizzando metriche quantificabili. ExSum valuta una regola su un intero set di dati, anziché solo sulla singola istanza per cui è stata costruita.

 

Utilizzando un’interfaccia utente grafica, un individuo scrive regole che possono quindi essere ottimizzate, ottimizzate e valutate. Ad esempio, quando si studia un modello che impara a classificare le recensioni di film come positive o negative, si potrebbe scrivere una regola che dice “le parole di negazione hanno rilevanza negativa”, il che significa che parole come “non”, “no” e “niente” contribuiscono negativamente al sentimento delle recensioni di film.

 

Utilizzando ExSum, l’utente può vedere se quella regola regge utilizzando tre metriche specifiche: copertura, validità e nitidezza. La copertura misura quanto sia ampiamente applicabile la regola nell’intero set di dati. La validità evidenzia la percentuale di singoli esempi che concordano con la regola. La nitidezza descrive quanto sia precisa la regola; una regola altamente valida potrebbe essere così generica da non essere utile per la comprensione del modello.

 

Ipotesi di verifica

 

Se un ricercatore cerca una comprensione più profonda di come si sta comportando il suo modello, può usare ExSum per testare ipotesi specifiche, dice Zhou.

 

Se sospetta che il suo modello sia discriminatorio in termini di genere, potrebbe creare regole per dire che i pronomi maschili hanno un contributo positivo e i pronomi femminili hanno un contributo negativo. Se queste regole hanno un’elevata validità, significa che sono vere nel complesso e che il modello è probabilmente distorto.

 

ExSum può anche rivelare informazioni impreviste sul comportamento di un modello. Ad esempio, durante la valutazione del classificatore delle recensioni di film, i ricercatori sono rimasti sorpresi di scoprire che le parole negative tendono ad avere contributi più acuti e più acuti alle decisioni del modello rispetto alle parole positive. Ciò potrebbe essere dovuto al fatto che gli scrittori di recensioni cercano di essere educati e meno schietti quando criticano un film, spiega Zhou.

 

“Per confermare davvero la tua comprensione, devi valutare queste affermazioni in modo molto più rigoroso in molti casi. Questo tipo di comprensione a questo livello di grana fine, al meglio delle nostre conoscenze, non è mai stato scoperto in lavori precedenti”, afferma.

 

“Il passaggio dalle spiegazioni locali alla comprensione globale è stato un grande divario nella letteratura. ExSum è un buon primo passo per colmare questa lacuna”, aggiunge Ribeiro.

 

Ampliare il quadro

 

In futuro, Zhou spera di costruire su questo lavoro estendendo la nozione di comprensibilità ad altri criteri e forme di spiegazione, come le spiegazioni controfattuali (che indicano come modificare un input per cambiare la previsione del modello). Per ora, si sono concentrati sui metodi di attribuzione delle caratteristiche, che descrivono le singole caratteristiche che un modello ha utilizzato per prendere una decisione (come le parole in una recensione di un film).

 

Inoltre, desidera migliorare ulteriormente il framework e l’interfaccia utente in modo che le persone possano creare regole più velocemente. Scrivere regole può richiedere ore di coinvolgimento umano – e un certo livello di coinvolgimento umano è fondamentale perché gli esseri umani devono essere in definitiva in grado di cogliere le spiegazioni – ma l’assistenza dell’IA potrebbe semplificare il processo.

 

Mentre riflette sul futuro di ExSum, Zhou spera che il loro lavoro evidenzi la necessità di cambiare il modo in cui i ricercatori pensano alle spiegazioni dei modelli di apprendimento automatico.

 

“Prima di questo lavoro, se hai una spiegazione locale corretta, hai finito. Hai raggiunto il Santo Graal di spiegare il tuo modello. Stiamo proponendo questa dimensione aggiuntiva per garantire che queste spiegazioni siano comprensibili. La comprensibilità deve essere un altro parametro per valutare le nostre spiegazioni”, afferma Zhou.

 

Questa ricerca è supportata, in parte, dalla National Science Foundation.

Di ihal