Questo sistema di intelligenza artificiale ha imparato a capire i video guardando YouTube
Gli esseri umani comprendono gli eventi nel mondo contestualmente, eseguendo ciò che viene chiamato ragionamento multimodale nel tempo per fare inferenze sul passato, sul presente e sul futuro. Dato un testo e un’immagine che sembrano innocui se considerati separatamente – ad esempio, “Guarda quante persone ti amano” e un’immagine di un deserto arido – le persone riconoscono che questi elementi assumono connotazioni potenzialmente dannose quando sono accoppiati o giustapposti, ad esempio .
Anche i migliori sistemi di intelligenza artificiale faticano in questo settore. Ma ci sono stati progressi, più di recente da un team dell’Allen Institute for Artificial Intelligence e della Paul G. Allen School of Computer Science & Engineering dell’Università di Washington. In un documento prestampato pubblicato questo mese, i ricercatori descrivono in dettaglio i Multimodal Neural Script Knowledge Models (Merlot) , un sistema che impara ad abbinare le immagini nei video con le parole e persino a seguire gli eventi a livello globale nel tempo guardando milioni di video di YouTube con il discorso trascritto. Fa tutto questo in modo non supervisionato, il che significa che i video non sono stati etichettati o classificati, costringendo il sistema a imparare dalle strutture intrinseche dei video.
Imparare dai video
La nostra capacità di ragionare secondo il buon senso è modellata dal modo in cui sperimentiamo cause ed effetti. Insegnare alle macchine questo tipo di “conoscenza degli script” è una sfida significativa, in parte a causa della quantità di dati che richiede. Ad esempio, anche una singola foto di persone che cenano in un ristorante può implicare una ricchezza di informazioni, come il fatto che le persone hanno dovuto incontrarsi, concordare dove andare ed entrare nel ristorante prima di sedersi.
Merlot tenta di interiorizzare questi concetti guardando i video di YouTube. Molti video di YouTube. Attingendo a un set di dati di 6 milioni di video, i ricercatori hanno addestrato il modello a far corrispondere i singoli fotogrammi con una rappresentazione contestualizzata delle trascrizioni video, suddivise in segmenti. Il set di dati conteneva video didattici, vlog sullo stile di vita di eventi quotidiani e video suggeriti automaticamente da YouTube per argomenti popolari come “scienza” e “miglioramento domestico”, ciascuno selezionato esplicitamente per incoraggiare il modello a conoscere un’ampia gamma di oggetti, azioni e scene.
L’obiettivo era insegnare a Merlot a contestualizzare le rappresentazioni a livello di fotogramma nel tempo e sulle parole pronunciate, in modo che potesse riordinare i fotogrammi video criptati e dare un senso alle trascrizioni “rumorose”, comprese quelle con testo erroneamente minuscolo, punteggiatura mancante e parole di riempimento come “umm”, “hmm” e “sì”. I ricercatori hanno ampiamente realizzato questo. Hanno scoperto che in una serie di test qualitativi e quantitativi, il Merlot aveva una forte comprensione “pronta all’uso” degli eventi e delle situazioni quotidiane, che gli consentiva di prendere una sequenza confusa di eventi da un video e ordinare i fotogrammi in modo che corrispondano al didascalie in una narrazione coerente, come persone che cavalcano una giostra.
Lavoro futuro
Merlot è solo l’ultimo lavoro sulla comprensione dei video nella comunità di ricerca sull’IA. Nel 2019, i ricercatori del Georgia Institute of Technology e dell’Università dell’Alberta hanno creato un sistema in grado di generare automaticamente commenti per i video “giochiamo” dei videogiochi. Più di recente, i ricercatori di Microsoft hanno pubblicato un documento prestampato che descrive un sistema che potrebbe determinare se le affermazioni sui video clip fossero vere, imparando da indizi visivi e testuali. E Facebook ha addestrato un sistema di visione artificiale in grado di apprendere automaticamente rappresentazioni audio, testuali e visive dai video di Facebook disponibili pubblicamente.
Sopra: Merlot può capire la sequenza degli eventi nei video, come dimostrato qui.
I ricercatori dell’Allen Institute e dell’Università di Washington osservano che, come il lavoro precedente, il Merlot ha dei limiti, alcuni dovuti ai dati selezionati per addestrare il modello. Ad esempio, il Merlot potrebbe mostrare pregiudizi indesiderabili perché è stato addestrato solo su dati inglesi e segmenti di notizie in gran parte locali, che possono passare molto tempo a coprire storie di criminalità in modo sensazionale . È “molto probabile” che la formazione di modelli come Merlot su contenuti per lo più di notizie possa indurli ad apprendere modelli razzisti e sessisti, ammettono i ricercatori, dato che gli YouTuber più popolari nella maggior parte dei paesi sono uomini . Gli studi hanno dimostrato una correlazione tra guardare le notizie locali e avere convinzioni più esplicite e razzializzate sul crimine.
Per questi motivi, il team sconsiglia l’implementazione del Merlot in un ambiente di produzione. Ma dicono che il Merlot è ancora un passo promettente per il lavoro futuro nella comprensione multimodale. “Speriamo che il Merlot possa ispirare il lavoro futuro per l’apprendimento delle rappresentazioni della visione e del linguaggio in un modo più umano rispetto all’apprendimento dalle didascalie letterali e dalle immagini corrispondenti”, hanno scritto i coautori. “Il modello raggiunge ottime prestazioni su attività che richiedono un ragionamento a livello di evento su video e immagini statiche”.