Framework AI sperimentale Vx2Text genera didascalie video utilizzando inferenze da audio e testo
Una grande sfida nell’intelligenza artificiale è lo sviluppo di un sistema di conversazione in grado di comprendere il mondo in modo affidabile e rispondere utilizzando il linguaggio naturale. In definitiva, risolverlo richiederà un modello in grado di estrarre informazioni salienti da immagini, testo, audio e video e rispondere alle domande in un modo che gli esseri umani possano capire. In un passo verso questo obiettivo , i ricercatori di Facebook, Columbia University, Georgia Tech e Dartmouth hanno sviluppato Vx2Text , un framework per la generazione di testo da video, parlato o audio. Affermano che Vx2Text può creare didascalie e rispondere a domande meglio dei precedenti approcci all’avanguardia.
A differenza della maggior parte dei sistemi di intelligenza artificiale, gli esseri umani comprendono il significato di testo, video, audio e immagini insieme nel contesto. Ad esempio, dato un testo e un’immagine che sembrano innocui se considerati separati (ad esempio, “Guarda quante persone ti amano” e un’immagine di un deserto arido), le persone riconoscono che questi elementi assumono connotazioni potenzialmente dannose quando sono accoppiati o giustapposti. L’apprendimento multimodale può trasportare informazioni o tendenze complementari, che spesso diventano evidenti solo quando sono tutte incluse nel processo di apprendimento. E questo è promettente per le applicazioni dalla trascrizione alla traduzione di fumetti in diverse lingue.
Nel caso di Vx2Text, i classificatori “specifici per modalità” convertono i segnali semantici da video, testo o audio in uno spazio di linguaggio semantico comune. Ciò consente ai modelli linguistici di interpretare direttamente i dati multimodali, aprendo la possibilità di realizzare la fusione multimodale – cioè, combinando segnali per rafforzare la classificazione – per mezzo di potenti modelli linguistici come il T5 di Google. Un decodificatore di testo generativo all’interno di Vx2Text trasforma le caratteristiche multimodali calcolate da un codificatore in testo, rendendo il framework adatto per la generazione di risposte in linguaggio naturale.
“Non solo un tale progetto è molto più semplice, ma porta anche a prestazioni migliori rispetto agli approcci precedenti”, hanno scritto i ricercatori in un documento che descrive il loro lavoro. Utilmente, aggiungono, elimina anche la necessità di progettare algoritmi specializzati o ricorrere ad approcci alternativi per combinare i segnali.
Negli esperimenti, i ricercatori mostrano che Vx2Text genera testo naturale “realistico” sia per dialoghi audiovisivi “sensibili alla scena” che per sottotitoli video . Sebbene i ricercatori abbiano fornito al modello il contesto sotto forma di storie di dialoghi e trascrizioni vocali, notano che il testo generato include informazioni da modalità non testuali, ad esempio riferimenti ad azioni come aiutare qualcuno ad alzarsi o rispondere al telefono.
Vx2Text ha applicazioni in azienda, dove potrebbe essere utilizzato per sottotitolare video registrati o trasmessi in streaming per scopi di accessibilità. In alternativa, il framework (o qualcosa di simile) potrebbe trovare la sua strada in piattaforme di condivisione video come YouTube e Vimeo, che si basano sui sottotitoli tra gli altri segnali per migliorare la pertinenza dei risultati di ricerca.
“Il nostro approccio si basa sull’idea di mappare tutte le modalità in uno spazio linguistico semantico al fine di consentire l’applicazione diretta delle reti di trasformatori, che si sono dimostrate altamente efficaci nel modellare i problemi del linguaggio”, hanno scritto i ricercatori. “Questo rende il nostro intero modello addestrabile end-to-end.”