Le aziende stanno commercializzando modelli di intelligenza artificiale multimodali per analizzare video e altro
All’inizio di questo mese, i ricercatori dell’Allen Institute for AI, un’organizzazione no profit fondata dal defunto cofondatore di Microsoft Paul Allen, hanno rilasciato una demo interattiva di un sistema che descrivono come parte di una “nuova generazione” di applicazioni di intelligenza artificiale in grado di analizzare, cercare e rispondere alle domande sui video “su larga scala”. Chiamata Merlot Reserve , i ricercatori hanno fatto “guardare” al sistema 20 milioni di video di YouTube per apprendere le relazioni tra immagini, suoni e sottotitoli, consentendogli, ad esempio, di rispondere a domande come “Che pasto vuole la persona nel video mangiare?” o “Il ragazzo in questo video ha già nuotato nell’oceano?”
Merlot Reserve e il suo predecessore, Merlot , non sono i primi sistemi di intelligenza artificiale ” multimodali ” del loro genere. I sistemi in grado di elaborare e mettere in relazione informazioni da audio, immagini e testo esistono da anni. Queste tecnologie continuano a migliorare nella loro capacità di comprendere il mondo in modo più simile agli esseri umani. DALL-E del laboratorio di ricerca di San Francisco OpenAI , che è stato rilasciato nel 2021, può generare immagini di oggetti, reali o immaginari, da semplici descrizioni testuali come “una poltrona a forma di avocado”. Un sistema più recente di Google chiamato VATT può non solo aggiungere sottotitoli agli eventi nei video (ad esempio “un uomo che nuota”), ma classificare i clip audio e riconoscere gli oggetti nelle immagini.
Tuttavia, fino a poco tempo fa, questi sistemi di intelligenza artificiale multimodali erano strettamente per il dominio della ricerca. Questo sta cambiando: stanno diventando sempre più commercializzati.
“Diverse tecnologie multimodali, tra cui riconoscimento vocale automatico, etichettatura e riconoscimento delle immagini, reti neurali e modelli di apprendimento automatico tradizionali [possono aiutare a] acquisire una comprensione di testo, voce e immagini, [soprattutto se abbinate] all’elaborazione del testo”, Aaron Sloman, il cofondatore e CTO di CLIPr, ha detto a VentureBeat via e-mail. CLIPr è tra la nascente coorte di aziende che utilizzano sistemi di intelligenza artificiale multimodale per applicazioni come l’analisi di video. Nel gruppo sono rappresentati giganti della tecnologia tra cui Meta (ex Facebook) e Google, così come startup come Twelve Labs , che afferma che i suoi sistemi possono riconoscere funzionalità nei video inclusi oggetti, testo sullo schermo, voce e persone.
“[I miei colleghi cofondatori ed io] abbiamo cercato una soluzione per aiutarci a estrarre facilmente clip importanti e rilevanti dai video come alternativa a saltare a intervalli di 10-15 secondi, e quando non siamo stati in grado di trovare una soluzione, abbiamo deciso per costruirne uno… La nostra omonima piattaforma di indicizzazione video… acquisisce il video registrato e aiuta a renderlo ricercabile per trascrizione, argomenti e sottoargomenti”, ha affermato Sloman. “Anche l’analisi della prosodia è fondamentale per noi, che è il ritmo, l’accento e l’intonazione del discorso. Lo sfruttiamo rispetto all’analisi delle immagini, come le diapositive delle presentazioni delle riunioni, per aiutare a valutare l’accuratezza di questi cambiamenti tonali o [cercare] gesti animati con i partecipanti che sono in video”.
Sloman afferma che CLIPr ha clienti in una “varieta” di settori, principalmente editoria multimediale, impresa ed eventi. In futuro, la startup mira ad applicare la sua tecnologia al video in live streaming e creare bot “specifici per il ruolo” che possono, ad esempio, prendere sessioni di keynote da un evento e creare automaticamente una bobina di momenti salienti.
“Riteniamo che il video sia la forma di comunicazione moderna più importante e sottoutilizzata e il nostro obiettivo è rendere i video accessibili quanto i contenuti scritti”, ha continuato Sloman.
Futuri multimodali
Al di fuori dei sistemi multimodali, l’IA non vive il mondo allo stesso modo delle persone. Ad esempio, un sistema di riconoscimento vocale può comprendere solo un tipo di dati, il parlato, e non comprende il contesto di quel discorso. Al contrario, le persone usano tutti i loro sensi (p. es., vista, suono, olfatto) per elaborare e radicare gli eventi nel tempo. Dalle immagini e dalle didascalie di qualcuno che cucina popcorn, ad esempio, una persona può immaginare quali potrebbero essere i suoni della scena, come i chicchi crudi che si spargono in una pentola vuota e i “pop” dei popcorn che si espandono.
“[M]ognuno di questi modelli multimodali è specifico dell’immagine e si concentra sul riconoscimento visivo, descrivendo ciò che viene letteralmente mostrato”, Rowan Zellers, un dottorato di ricerca in informatica. candidato all’Università di Washington e ricercatore capo del progetto Merlot Reserve, ha detto a VentureBeat via e-mail. “Potremmo vedere i modelli rispondere a domande su ciò che le persone stanno facendo (e perché) nei video, possibilmente per le applicazioni di ricerca”.
Twelve Labs, ad esempio, afferma che il suo sistema rende analizzabile qualsiasi database video trasformando clip in rappresentazioni matematiche note come incorporamenti vettoriali. I clienti lo hanno utilizzato per creare motori di raccomandazione, sistemi di moderazione dei contenuti e dashboard di analisi dei media, secondo il CEO Jae Lee.
“[Twelve Labs sta] lavorando alla creazione di [un] modello in grado di creare potenti incorporamenti di video che possono essere utilizzati non solo per la ricerca semantica, ma anche per altre varietà di attività, come didascalie, evidenziazioni e generazioni di riepiloghi”, ha detto Lee a VentureBeat Via Posta Elettronica. “I nostri modelli video sono formati sotto la supervisione della lingua. Estraiamo dal video diversi moduli — multimodalità — di informazioni come immagini, audio, trascrizione, movimento, ecc. e fondiamo tali informazioni in un’unica rappresentazione vettoriale. Tale rappresentazione è formata in base a testi pertinenti – frasi – che vengono elaborati utilizzando la tecnologia di elaborazione del linguaggio naturale (NLP).
Oltre alle startup, l’anno scorso Google ha rivelato che intende utilizzare un sistema di intelligenza artificiale multimodale chiamato modello unificato multitasking ( MUM ) per migliorare le esperienze di ricerca di Google in diverse lingue e dispositivi. Tra gli altri miglioramenti, in Ricerca Google, MUM alimenterà nuove funzionalità che accettano una query (ad es. “dipinti acrilici”) e mettono in evidenza risorse come istruzioni dettagliate e selezionano soggetti nei video (ad es. “tecniche acriliche”) basate sul contenuto audio, testuale e visivo.
Meta ha recentemente affermato che sta anche applicando un sistema multimodale, chiamato Few-Shot Learner (FSL), per determinare se il contenuto dei messaggi di Facebook e Instagram, inclusi testo, immagini e URL, viola le linee guida della community. La società afferma che FSL è stato sviluppato su un database di miliardi di post e immagini di Facebook in più di 100 lingue.
Zellers ritiene che, in futuro, questo tipo di modelli multimodali potrebbe essere utilizzato per creare prodotti che non solo analizzino video online, audio e relative forme di contenuto, ma assistano gli utenti con problemi di vista o udito. “Questo potrebbe comportare qualsiasi cosa, dalla risposta alle domande di base, fino all’interazione contestuale”, ha aggiunto.
Battute d’arresto multimodali
Sebbene l’IA multimodale commercializzata sia più comune di prima, è necessario superare diversi ostacoli prima che questi tipi di sistemi raggiungano un’implementazione su larga scala. In parte si tratta di far funzionare l’economia: sebbene l’esecuzione di un sistema esistente non sia generalmente costoso, almeno rispetto allo sviluppo di uno nuovo, dipende dalla natura del carico di lavoro e dal livello di competenza del team di data science dell’azienda.
“Il modello iniziale [sviluppo] è facilmente l’aspetto più costoso perché include il perfezionamento della scienza dei dati in parallelo”, ha affermato Sloman. “Ad esempio, il processo per distinguere ciò che è o non è una diapositiva in migliaia di riunioni Zoom verificate è molto costoso”.
Ad esempio, Merlot Reserve ha impiegato circa tre settimane per svilupparsi su un cluster di 512 unità di elaborazione tensoriale (TPU) di terza generazione di Google , chip progettati per accelerare alcuni aspetti del processo di creazione dell’IA. Un pod di trentadue TPU di terza generazione costa $ 32 all’ora da valutare, secondo gli attuali prezzi pubblici, portando i costi di sviluppo della Merlot Reserve a poco più di $ 16.000 (supponendo che non ci siano sconti sul volume, annuali o accademici).
“Attualmente eseguiamo sette diversi modelli, alcuni dei quali sono repository di dati open source su larga scala con centinaia di milioni di oggetti, mentre altri sono proprietari”, ha spiegato Sloman. “I nostri modelli proprietari si stanno allenando da oltre un anno e, sebbene sia difficile da dire per i modelli open source che utilizziamo, probabilmente si stanno allenando da molto più tempo… Sospetto che il prossimo cambiamento radicale nell’IA multimodale sarà costruire collegamenti più standardizzati tra diversi tipi di modelli in silos. Abbiamo dovuto combinare diversi modelli di intelligenza artificiale, ognuno dei quali esegue bene un tipo di analisi. Alla fine, con molte aziende che creano prodotti utilizzando il multimodale, vedremo più offerte open source, rendendo più facile e meno costoso addestrare ed eseguire esperimenti”.
Anche i sistemi multimodali odierni soffrono di difetti tecnici, come la rilevazione di errori nei dati (ad es. i video di YouTube) da cui stanno imparando. Ad esempio, poiché Merlot Reserve “guarda” un grande volume di video di YouTube, è influenzato dai consigli di YouTube e, più in generale, dalla pressione economica dei contenuti che le persone sono incoraggiate a produrre.
“La moderazione dei contenuti su YouTube filtra in modo sproporzionato le voci [delle minoranze]… Anche i ruoli delle persone nei video di YouTube tendono a essere altamente legati al genere, il che potrebbe influenzare la comprensione della situazione”, hanno scritto Zellers e i suoi colleghi in uno studio che descrive le capacità del Merlot Reserve. “È noto che i sottotitoli automatici su YouTube soffrono di pregiudizi di genere, che il nostro modello (come i modelli neurali in generale) potrebbe a sua volta amplificare. È probabile che anche le trascrizioni su YouTube siano scarse nel gestire importanti indicatori di identità, come i pronomi”.
Pregiudizi a parte, non c’è nulla che impedisca ai malintenzionati di utilizzare sistemi multimodali per scopi controversi, come identificare eventi o attività nei filmati di sorveglianza. In un articolo pubblicato dall’Institute for Human-Centered Artificial Intelligence di Stanford, i coautori sostengono che i progressi nei modelli multimodali come DALL-E si tradurranno in contenuti di qualità superiore generati da macchine che saranno più facili da personalizzare per “scopi di uso improprio” — come pubblicare articoli fuorvianti rivolti a diversi partiti politici, nazionalità e religioni.
Sloman afferma che CLIPr, da parte sua, adotta misure per mitigare la distorsione del modello e l’uso improprio attraverso un approccio “umano nel ciclo”. L’azienda incoraggia i clienti a sottolineare gli errori commessi dal sistema CLIPr in modo che possa correggerli e, idealmente, migliorare lo sviluppo del modello sul back-end.
“Il multimodale ha i suoi vantaggi, perché se eseguito correttamente, ha meno possibilità di produrre bias rispetto a modelli con più silos”, ha affermato. “Il vero pericolo deriva dal non riconoscere la complessità e l’imperfezione dell’IA multimodale e dall’utilizzo di punti dati che ti conducono lungo un particolare percorso decisionale lineare che limita lo spettro di risposte o corrispondenze”.
Lee ha affermato che anche Twelve Labs ha implementato strategie di mitigazione dei pregiudizi. L’azienda adotta un approccio in tre fasi che include la raccolta di set di dati da diverse fonti, la creazione di documentazione per i set di dati e la cura del video grezzo e delle informazioni di testo.
“I modelli di visione artificiale vengono utilizzati per rilevare e filtrare contenuti visivi che possono contenere tossicità o contenuti sensibili”, ha spiegato Lee. “Quindi, la trascrizione del video grezzo viene analizzata sfruttando le parole in blocco (ad esempio, rimuovendo qualsiasi testo contenente parole da un elenco di parole selezionate) e tecniche avanzate di NLP per filtrare i contenuti che possono contenere pregiudizi politici, socioeconomici o demografici. Le parole in blocchi e le tecniche di NLP vengono utilizzate anche per filtrare le etichette di testo che possono contenere tossicità e pregiudizi… Comprendere e mitigare potenziali pregiudizi quando si sfruttano i modelli multimodali è parte integrante del successo di Twelve Labs”.