Martedì, Google DeepMind ha annunciato in modo silenzioso un significativo avanzamento nella ricerca sull’intelligenza artificiale (IA), presentando un nuovo modello autoregressivo progettato per migliorare la comprensione di video di lunga durata.

Il nuovo modello, chiamato “Mirasol3B”, introduce un approccio innovativo all’apprendimento multimodale, elaborando in modo più integrato ed efficiente dati audio, video e testuali.

Secondo Isaac Noble, ingegnere informatico di Google Research, e Anelia Angelova, ricercatrice di Google DeepMind, la sfida principale nella creazione di modelli multimodali sta nell’affrontare la diversità delle modalità.

“Alcune modalità possono essere ben coordinate nel tempo, come audio e video, ma possono non essere allineate al testo”, spiegano. “Inoltre, il volume di dati nei segnali audio e video è molto maggiore rispetto al testo, quindi, quando si combinano in modelli multimodali, è spesso necessario comprimere in modo sproporzionato i dati audio e video. Questo problema si fa più critico con i video più lunghi”.

Per affrontare questa complessità, il modello Mirasol3B di Google suddivide la modellazione multimodale in componenti autoregressive separate, lavorando su input in base alle caratteristiche delle diverse modalità.

“Il nostro modello è composto da una componente autoregressiva per le modalità che si svolgono in modo sincronizzato nel tempo (audio e video) e una componente autoregressiva separata per le modalità che potrebbero non essere sincronizzate nel tempo, ma comunque seguono una sequenza, come il testo, come ad esempio un titolo o una descrizione”, spiegano Noble e Angelova.

Questo annuncio giunge in un momento in cui l’industria tecnologica cerca di sfruttare l’IA per analizzare e comprendere grandi quantità di dati in diversi formati. Mirasol3B di Google rappresenta un importante passo avanti in questa direzione, aprendo nuove possibilità per applicazioni come la risposta a domande basate su video e il miglioramento della qualità di video di lunga durata.

Una delle potenziali applicazioni che Google potrebbe esplorare è l’integrazione di questo modello su YouTube, la più grande piattaforma di video online al mondo e una delle principali fonti di entrate dell’azienda.

Il modello potrebbe teoricamente migliorare l’esperienza degli utenti su YouTube fornendo funzionalità multimodali come la generazione automatica di didascalie e riepiloghi per i video, la capacità di rispondere a domande poste dagli utenti, la creazione di suggerimenti e pubblicità personalizzati, nonché la possibilità per gli utenti di creare e modificare i propri video utilizzando input e output multimodali.

Per esempio, il modello potrebbe generare didascalie e riepiloghi per i video basandosi sia sui contenuti visivi che su quelli audio, e permettere agli utenti di cercare e filtrare i video per parole chiave, argomenti o sentimenti. Questo potrebbe migliorare l’accessibilità e la reperibilità dei video, aiutando gli utenti a trovare i contenuti desiderati in modo più efficiente.

Inoltre, in teoria, il modello potrebbe rispondere a domande degli utenti e fornire feedback basati sul contenuto dei video, ad esempio spiegando il significato di termini, fornendo ulteriori informazioni o risorse, o suggerendo video o playlist correlati.

Questo annuncio ha suscitato un grande interesse e entusiasmo nella comunità dell’intelligenza artificiale, ma ha anche suscitato alcune critiche e dubbi. Alcuni esperti hanno lodato il modello per la sua versatilità e scalabilità, auspicando possibili applicazioni in vari settori.

Per esempio, Leo Tronchon, ingegnere ricercatore in machine learning presso Hugging Face, ha commentato su Twitter: “È molto interessante vedere modelli come Mirasol che incorporano più modalità. Al momento, ci sono ancora pochi modelli all’avanguardia che utilizzano sia l’audio che il video. Sarebbe davvero utile averlo su [Hugging Face]”.

Gautam Sharda, studente di informatica presso l’Università dell’Iowa, ha scritto su Twitter: “Sembra che non ci siano codice, pesi del modello, dati di addestramento o persino un’API disponibili. Perché no? Mi piacerebbe vedere qualcosa di più concreto rispetto a un semplice articolo di ricerca?”.

Questo annuncio rappresenta senza dubbio una pietra miliare significativa nel campo dell’intelligenza artificiale e del machine learning, dimostrando l’ambizione e la leadership di Google nel campo delle tecnologie all’avanguardia in grado di migliorare e trasformare la vita umana.

Tuttavia, costituisce anche una sfida e un’opportunità per i ricercatori, gli sviluppatori, i regolatori e gli utenti dell’IA, che devono assicurarsi che il modello e le sue applicazioni siano allineati con i valori e gli standard etici, sociali e ambientali della società.

Con il mondo che diventa sempre più multimodale e interconnesso, è essenziale promuovere una cultura di collaborazione, innovazione e responsabilità tra le parti interessate e il pubblico, creando un ecosistema di intelligenza artificiale più inclusivo e diversificato, in grado di portare vantaggi a tutti.

Di Fantasy