Twelve Labs ha annunciato il lancio di un modello di intelligenza artificiale (AI) per la comprensione delle immagini che, secondo quanto dichiarato, supera le prestazioni attuali di Google e OpenAI.
L’azienda ha dichiarato di aver aggiornato il suo modello di generazione del linguaggio video, denominato “Pegasus-1”, insieme al modello di comprensione video multimodale “Marengo 2.6”.
Pegasus è stato originariamente rilasciato lo scorso novembre e offre funzionalità di creazione di testo basate su video, come riepiloghi video e creazione di evidenziazioni. Quest’ultimo aggiornamento mira a migliorare le prestazioni relative alle “Domande e risposte”, oltre al riepilogo dei contenuti video e alla generazione di testo.
Secondo Twelve Labs, la capacità di comprendere il contesto delle immagini è stata potenziata grazie a un miglioramento della “comprensione spazio-temporale”.
La nuova versione del modello è stata rilasciata come “open beta” anziché richiedere l’iscrizione in lista d’attesa, e viene offerta come Software as a Service (SaaS) tramite API accessibili online.
Twelve Labs ha condotto test interni e confronti con modelli esistenti, affermando che il loro modello supera prestazioni di riferimento come il recente “Video Prism” di Google. Rispetto ad altri modelli multimodali performanti come “Gemini 1.5 Pro” di Google e “GPT-4V” di OpenAI, Marengo 2.6 ha dimostrato un vantaggio prestazionale fino al 43%.
Questo modello è in grado di elaborare centinaia di ore di video in tempo reale, ed è stato potenziato con una notevole miglioramento della funzione cognitiva “Motion Understanding”.
La versione beta include miglioramenti nella comprensione del parlato e delle immagini, supportando il lavoro da testo ad audio, da audio a video, da testo a immagine e da immagine a video.
Nonostante ciò, Twelve Labs ha chiarito che il modello non ha una funzione di creazione, ma piuttosto permette agli utenti di esplorare e presentare contenuti pertinenti in base al testo inserito.
Infine, Twelve Labs ha attirato l’attenzione dell’industria grazie alla sua tecnologia di rete neurale multimodale, ricevendo riconoscimenti da CB Insight come una delle migliori aziende di intelligenza artificiale al mondo e con investimenti strategici da parte di aziende come NVIDIA, Intel e Samsung Next. Il CEO Jaeseong Lee ha sottolineato che i modelli Pegasus e Marengo offrono supporto per compiti dettagliati altrimenti impossibili da eseguire.