Immagine AI

TwelveLabs ha chiuso un round Series B da 100 milioni di dollari, portando il capitale complessivamente raccolto oltre i 200 milioni. L’operazione è guidata da NEA e Naver Ventures, con la partecipazione strategica di AWS e il coinvolgimento di investitori già presenti e nuovi partner internazionali. Il finanziamento sostiene lo sviluppo di una piattaforma di intelligenza artificiale video orientata non soltanto alla ricerca di contenuti, ma alla costruzione di sistemi capaci di riconoscere, memorizzare e ragionare sui dati audiovisivi.

Il punto centrale è l’evoluzione dall’analisi puntuale dei filmati a un’architettura agentica. In questo modello, il sistema non deve rieseguire l’elaborazione dell’intero video ogni volta che riceve una richiesta: acquisisce i contenuti, identifica oggetti, azioni, persone, contesti e relazioni temporali, quindi conserva le informazioni estratte in una memoria strutturata. Le interrogazioni successive possono così combinare gli elementi già indicizzati e produrre risposte che tengono conto dell’intero contesto audiovisivo, con tempi e costi di inferenza potenzialmente più sostenibili rispetto alla rilettura continua dei file sorgente.

L’accordo con AWS rafforza anche il livello infrastrutturale del progetto. TwelveLabs utilizzerà AWS come cloud prioritario e lavorerà all’ottimizzazione dell’inferenza video sui chip Trainium, progettati per carichi di lavoro di machine learning. I futuri video foundation model dell’azienda saranno inoltre resi disponibili inizialmente nell’ecosistema AWS, collegando lo sviluppo dei modelli a un ambiente cloud in grado di supportare addestramento, distribuzione e integrazione nelle applicazioni enterprise.

L’obiettivo è arrivare a una piattaforma full-stack per la comprensione dei video: modelli fondamentali, API e applicazioni utilizzabili da sviluppatori, imprese e utenti non tecnici. Questo approccio consente di trasformare archivi audiovisivi molto estesi in basi informative interrogabili in linguaggio naturale, utili per individuare sequenze specifiche, ricostruire eventi, estrarre evidenze e supportare decisioni operative.

Le applicazioni coinvolgono settori in cui i video costituiscono una fonte dati primaria ma difficilmente consultabile su larga scala. Media ed entertainment possono usare questi sistemi per catalogazione, ricerca editoriale e valorizzazione degli archivi; la pubblicità per analizzare scene, soggetti e contesti di brand safety; lo sport per individuare azioni e schemi ricorrenti; la sicurezza e il comparto pubblico per accelerare l’esame di grandi quantità di registrazioni. La direzione è quella di rendere il video un dato su cui un agente AI possa operare in modo continuo, contestuale e verificabile.

Di Fantasy