Immagine AI

Negli ultimi anni l’intelligenza artificiale ha compiuto progressi straordinari nella comprensione del linguaggio e delle immagini, ma ha incontrato molte più difficoltà quando si è trattato di agire in modo fluido e adattivo all’interno di ambienti complessi. Questo ambito, spesso definito come “intelligenza artificiale incarnata”, richiede non solo la capacità di percepire ciò che accade, ma anche di prendere decisioni e compiere azioni coordinate, come farebbe un essere umano con il proprio corpo. È proprio in questo spazio ancora parzialmente inesplorato che si inserisce NitroGen, il nuovo modello open source rilasciato da NVIDIA, sviluppato in collaborazione con la Stanford University e il California Institute of Technology.

NitroGen è stato presentato il 19 del mese (ora locale) come un modello di base visione-azione pensato per agenti di gioco di uso generale. La sua caratteristica più rilevante è la capacità di controllare videogiochi semplicemente osservando lo schermo, senza accesso diretto al motore di gioco o a regole codificate a mano. In altre parole, l’IA guarda ciò che vede il giocatore umano e agisce di conseguenza, imparando a muovere joystick e premere pulsanti in modo credibile anche in situazioni mai incontrate prima. Il progetto ha visto la partecipazione, tra gli altri, della professoressa Yejin Choi, figura di riferimento nel campo dell’intelligenza artificiale cognitiva e oggi anche Senior Director of Research di NVIDIA.

Alla base di NitroGen c’è un’idea tanto semplice quanto potente: utilizzare i videogiochi come palestra per l’apprendimento del comportamento. I giochi digitali rappresentano ambienti estremamente ricchi di informazioni visive, con situazioni che cambiano di continuo e una grande varietà di modalità di controllo. Proprio per questo si prestano in modo ideale a colmare uno dei principali vuoti dell’IA incarnata, ovvero la scarsità di dati comportamentali realistici. Per superare questo limite, i ricercatori hanno raccolto circa 40.000 ore di filmati di gioco provenienti da oltre 1.000 titoli diversi, attingendo a contenuti pubblicati online, in particolare su piattaforme come Twitch.

Un aspetto cruciale di questo processo è stato l’uso di video con “input overlay”, ovvero filmati in cui sullo schermo sono visibili anche gli input del giocatore, come la pressione dei pulsanti o i movimenti del joystick. Analizzando questi segnali visivi, NitroGen è riuscito a ricostruire quali comandi venissero impartiti in ogni momento. I risultati mostrano una precisione notevole: in media l’IA ha replicato i movimenti del joystick con un’accuratezza dell’84% e gli input dei pulsanti con una precisione che arriva al 96%. Questo significa che il modello non si limita a reagire in modo generico, ma apprende pattern di controllo molto vicini a quelli umani.

Il cuore tecnologico di NitroGen è l’architettura GR00T N1.5, un modello sviluppato da NVIDIA per applicazioni robotiche. Il legame con la robotica non è casuale. Sebbene NitroGen venga presentato come un’IA per videogiochi, il suo obiettivo è molto più ampio. I ricercatori lo descrivono come un “foundation model” capace di apprendere comportamenti generali, non legati a un singolo gioco o a un insieme ristretto di regole. Questa impostazione si riflette nella struttura complessiva del sistema, che combina un agente di base in grado di giocare a più titoli, un simulatore generale per il controllo di giochi commerciali e un enorme dataset video-comportamentale raccolto da Internet.

I risultati sperimentali confermano l’efficacia di questo approccio. NitroGen ha mostrato buone prestazioni in un’ampia varietà di generi, dai giochi di ruolo ai platform, dai battle royale ai racing game, sia in due che in tre dimensioni. Ancora più significativo è il comportamento in giochi mai visti prima. Con un addestramento aggiuntivo minimo, il modello ha raggiunto tassi di successo fino al 52% superiori rispetto a un’IA addestrata da zero sullo stesso titolo. Questo dato evidenzia una capacità di trasferimento delle competenze che rappresenta uno degli obiettivi principali della ricerca sull’IA generalista.

Il confronto con le tecniche tradizionali di apprendimento per rinforzo è inevitabile. In passato, sistemi basati su reinforcement learning hanno ottenuto risultati spettacolari in giochi specifici come StarCraft II o Dota 2, ma si sono dimostrati poco flessibili al di fuori degli ambienti per cui erano stati addestrati. NitroGen, al contrario, apprende esclusivamente da video online disponibili pubblicamente e riduce in modo significativo la dipendenza da ambienti simulati chiusi o da regole costruite ad hoc. Questo cambio di prospettiva apre la strada a modelli capaci di adattarsi a contesti nuovi con maggiore naturalezza.

Un altro elemento di rilievo è la scelta di rendere il progetto completamente open source. NVIDIA e i suoi partner hanno rilasciato dati, codice e modello su Hugging Face e su GitHub, permettendo alla comunità di ricerca di esplorare, verificare e ampliare il lavoro svolto. Questa apertura rafforza l’idea di NitroGen come infrastruttura di base su cui costruire ulteriori sviluppi, piuttosto che come prodotto chiuso destinato a un uso limitato.

Le implicazioni vanno ben oltre il mondo dei videogiochi. Secondo i ricercatori, le capacità comportamentali generali apprese in questi ambienti digitali potrebbero in futuro essere trasferite a robot fisici o ad agenti operanti in contesti reali complessi. In prospettiva, NitroGen potrebbe anche evolversi in un sistema capace di verificare o affiancare l’output di modelli linguistici di grandi dimensioni, combinando la comprensione simbolica con un modello globale del mondo basato sulla percezione e sull’azione. In questo scenario si inserisce anche il confronto con progetti simili, come SIMA 2, un agente di intelligenza artificiale generalista presentato di recente da Google.

Di Fantasy