Nvidia ha annunciato il lancio di Nvidia AI Blueprint, una soluzione progettata per semplificare lo sviluppo di agenti AI in grado di analizzare contenuti video e immagini. Questa tecnologia consente alle aziende di diversi settori di cercare e riassumere vasti volumi di dati visivi, migliorando la produttività e ottimizzando i processi operativi.
Nvidia AI Blueprint è parte di Nvidia Metropolis, un insieme di strumenti per sviluppatori dedicati alla creazione di applicazioni di visione artificiale. Il blueprint offre un flusso di lavoro personalizzabile che combina tecnologie di computer vision e intelligenza artificiale generativa, permettendo agli sviluppatori di costruire agenti visivi AI capaci di analizzare flussi video in tempo reale o archivi di dati visivi. Questi agenti possono rispondere a domande degli utenti, generare riassunti e attivare avvisi per scenari specifici.
Aziende globali come Accenture, Dell e Lenovo stanno già utilizzando Nvidia AI Blueprint per sviluppare agenti visivi AI che migliorano la produttività, ottimizzano i processi e contribuiscono a creare ambienti più sicuri. Questi agenti possono essere implementati in vari contesti, tra cui fabbriche, magazzini, negozi, aeroporti e incroci stradali, offrendo assistenza virtuale e analisi avanzate dei dati visivi.
Una caratteristica distintiva di Nvidia AI Blueprint è la possibilità di personalizzare gli agenti visivi AI utilizzando prompt in linguaggio naturale, eliminando la necessità di codifica complessa. Ciò abbassa la barriera all’adozione di assistenti virtuali in diversi settori e applicazioni urbane intelligenti.
Gli agenti visivi AI sono alimentati da Vision Language Models (VLMs), una classe di modelli di intelligenza artificiale generativa che combinano la visione artificiale con la comprensione del linguaggio per interpretare il mondo fisico ed eseguire compiti di ragionamento. Il blueprint di Nvidia per la ricerca e la sintesi video può essere configurato con modelli VLM per analizzare e comprendere contenuti visivi complessi, migliorando l’accuratezza e la pertinenza delle risposte generate.