Immagine AI

Il volume dei dati digitali prodotti a livello globale è oggi dominato in modo schiacciante dai contenuti video, che costituiscono circa il novanta percento del totale. Nonostante questa ondata di informazioni visive e uditive, la maggior parte di questi dati rimane sottoutilizzata. La ragione è semplice: le tecnologie di analisi esistenti faticano a comprendere appieno il contesto, le sfumature e le relazioni temporali implicite in un video con un livello di accuratezza paragonabile a quello umano. Questa lacuna sta per essere colmata grazie all’annuncio di Twelve Labs, un’azienda specializzata in Intelligenza Artificiale video, che ha ufficialmente lanciato il suo modello di nuova generazione, Marengo 3.0.

Marengo 3.0 viene presentato come un vero e proprio modello di base nativo per il video, un sistema progettato da zero per la comprensione del contenuto dinamico, rompendo in modo definitivo con i limiti dei metodi convenzionali. Finora, l’analisi video si è basata perlopiù sull’analisi frame-by-frame o su semplici combinazioni di modelli pre-esistenti per immagini e audio, un approccio che non è mai riuscito a cogliere la continuità del contesto. Il nuovo modello di Twelve Labs introduce una struttura unica che interpreta l’intero video in modo temporale e spaziale, abbracciando testo, audio, movimento e contesto complessivo per una comprensione completa.

La vera innovazione di Marengo 3.0 risiede nella sua capacità di implementare un livello di comprensione video che si avvicina notevolmente a quello degli esseri umani. Questo significa che il sistema non si limita a identificare un oggetto in un dato momento, ma è in grado di tracciare i cambiamenti di oggetti, azioni, emozioni e situazioni nel corso del tempo. È in grado di effettuare inferenze complesse, come collegare un dialogo pronunciato all’inizio di una scena con un’azione che si verifica minuti dopo, interpretando la correlazione tra le due.

Questa profonda capacità di comprendere la continuità e il contesto tra le scene migliora significativamente l’efficienza nell’analisi di contenuti complessi come sport, media, intrattenimento e pubblicità. Inoltre, dimostra un’elevata accuratezza anche in ambienti di analisi delicati, come quelli della sicurezza e della sorveglianza pubblica.

Per supportare l’adozione aziendale su scala globale, Marengo 3.0 introduce funzionalità potenti e pratiche. Una di queste è la Composed Image Retrieval, una caratteristica inedita nel settore che permette la ricerca simultanea di immagini e testo all’interno dei video. Un’altra funzione cruciale è l’Entity Search, che consente agli utenti di registrare e cercare persone o prodotti specifici come “nomi propri”. Ad esempio, in un archivio decennale di registrazioni, il volto di una celebrità può essere registrato e ricercato istantaneamente per identificare un’azione specifica in pochi secondi.

L’impegno verso un utilizzo globale è sottolineato dal supporto per trentasei lingue, garantendo un’applicazione affidabile in ambienti multinazionali. Ma la novità non si ferma alla qualità e alla funzionalità: attraverso test approfonditi, Twelve Labs ha confermato anche significativi miglioramenti dell’efficienza infrastrutturale, con una riduzione del cinquanta percento dei costi di archiviazione e un raddoppio della velocità di indicizzazione dei contenuti, rendendo il modello economicamente e operativamente vantaggioso per le aziende con archivi di dati massivi.

L’applicabilità di Marengo 3.0 è immediata e trasversale a diversi settori. Negli sport professionistici, il modello può ricercare istantaneamente azioni o momenti cruciali, come i canestri di un giocatore specifico o le infrazioni, accelerando notevolmente la produzione di highlights e l’analisi dettagliata delle partite da parte delle squadre. Nel settore del broadcasting e della post-produzione, la capacità di cercare entità specifiche nei vecchi archivi riduce drasticamente i tempi di ricerca e catalogazione.

Nell’ambito della sicurezza pubblica, si può rapidamente individuare una scena desiderata in ore di filmati di telecamere a circuito chiuso senza la necessità di revisione umana, migliorando l’efficacia delle indagini. Nel commercio elettronico, il modello può tracciare istantaneamente quando un marchio, un prodotto o un host specifico appaiono in una diretta o in una registrazione, e cosa stanno facendo, aprendo nuove vie per l’analisi del comportamento dei consumatori e l’ottimizzazione degli annunci.

Come ha sottolineato il CEO di Twelve Labs, Jae-seong Lee, Marengo 3.0 è un modello che supera completamente i limiti raggiunti finora dalla tecnologia di comprensione dei video, presentando alle aziende e agli sviluppatori uno standard innovativo e superiore al passato. Questa piattaforma non solo sfrutterà finalmente il novanta percento di dati video finora inaccessibili all’analisi completa, ma porterà velocità ed efficienza senza precedenti a processi che prima erano condotti manualmente, guidando una nuova ondata di innovazione in tutti i settori.

Di Fantasy