Immagine AI

NVIDIA ha recentemente introdotto il Cosmos-Inference1, un modello di linguaggio visivo (VLM) progettato per migliorare la capacità dell’intelligenza artificiale di comprendere e interagire con il mondo fisico. Questo modello è in grado di analizzare video, fare inferenze complesse e generare risposte in linguaggio naturale, come la decisione su quale azione intraprendere in base agli scenari osservati.

Il Cosmos-Inference1 rappresenta un avanzamento significativo nell’intelligenza artificiale, grazie alla sua capacità di ragionare sul mondo fisico e determinare le azioni più appropriate. Presentato come un “modello che si è evoluto dal buon senso fisico al ragionamento concreto”, questo sistema può essere applicato in settori che richiedono una comprensione approfondita dell’ambiente fisico, come le auto a guida autonoma o i robot. Questi sistemi, infatti, necessitano di un’analisi in tempo reale per prendere decisioni sicure, andando oltre il semplice riconoscimento degli oggetti e comprendendo le dinamiche dell’ambiente.

La chiave del successo di questo modello sta nel suo approccio multimodale, che integra informazioni visive con linguaggio naturale per generare risposte precise. Il processo inizia con l’analisi di dati visivi attraverso un codificatore, che collega poi questi dati al linguaggio naturale, alimentando un modello di linguaggio di grandi dimensioni (LLM). Successivamente, il modello genera risposte basate su due principali forme di ragionamento: il ragionamento fisico di buon senso e il ragionamento incarnato.

Il ragionamento fisico di buon senso consente al sistema di comprendere in modo disincarnato e generale cosa è possibile o impossibile nel mondo reale, prevedendo gli scenari con alta precisione. Questo approccio riduce il rischio di errori critici, facilitando l’apprendimento delle competenze in modo rapido ed efficiente. D’altra parte, il ragionamento incarnato aiuta l’intelligenza artificiale a pianificare e a prendere decisioni riguardo le interazioni future con l’ambiente fisico, andando oltre la semplice osservazione per eseguire azioni intelligenti.

L’architettura ibrida del modello, che combina i principi del Sistema 1 (risposte intuitive e rapide) e del Sistema 2 (analisi approfondite e decisioni complesse), offre una combinazione unica di reattività e capacità di ragionamento approfondito.

Per quanto riguarda le prestazioni, Cosmos-Inference1 ha mostrato risultati superiori in diversi benchmark. La versione 56B ha ottenuto una precisione del 60,2% nel ragionamento basato sul buon senso fisico, battendo il precedente record di OpenAI (59,9%). Inoltre, ha ottenuto un punteggio medio del 63,7% nei compiti di inferenza incarnata, un miglioramento significativo rispetto ai precedenti 53,5%. Il modello ha eccelso anche nei benchmark RoboVQA e HoloAssist, con punteggi rispettivamente dell’80,0% e 57,8%.

Disponibile per il download su GitHub, Cosmos-Inference1 è open-source e offre una nuova visione dell’intelligenza artificiale, dove la capacità di ragionare e agire nel mondo fisico si unisce alla potenza dei modelli linguistici di grandi dimensioni. Nonostante alcune difficoltà con set di dati specifici, come RoboFail, il modello ha dimostrato una robustezza superiore rispetto alle versioni precedenti e promette di aprire nuove possibilità nell’uso pratico dell’IA.

Di Fantasy