Immagine AI

Un team di ricerca del Korea Advanced Institute of Science and Technology (KAIST), guidato dal professor Yoo Chang-dong del Dipartimento di Ingegneria Elettrica ed Elettronica, ha sviluppato VOTP (Video-based Optimal Transport Preference), una nuova tecnologia che consente ai sistemi di intelligenza artificiale di apprendere criteri di giudizio e preferenze umane utilizzando soltanto un numero limitato di video di esempio. Il lavoro è stato accettato alla conferenza internazionale ICML 2026 e selezionato per una presentazione orale, un riconoscimento riservato a una piccola percentuale degli articoli presentati.

La ricerca affronta uno dei problemi più complessi nello sviluppo dell’intelligenza artificiale applicata a robotica, guida autonoma e sistemi fisici intelligenti: la costruzione delle funzioni di ricompensa che guidano il comportamento delle macchine. Nei sistemi moderni di reinforcement learning e preference learning, l’intelligenza artificiale deve imparare quali azioni siano preferibili rispetto ad altre in situazioni reali. Tradizionalmente questo processo richiede enormi quantità di feedback umano, con operatori che valutano manualmente migliaia o decine di migliaia di esempi per insegnare al modello quali comportamenti siano corretti, sicuri o desiderabili.

Secondo il team di KAIST, VOTP riduce drasticamente questa dipendenza dal feedback esplicito. Invece di richiedere valutazioni continue da parte degli esseri umani, il sistema apprende direttamente osservando un numero limitato di video classificati come esempi positivi e negativi. Attraverso l’analisi delle differenze tra i due gruppi, il modello è in grado di inferire autonomamente quali caratteristiche comportamentali siano associate alle preferenze umane e costruire una rappresentazione utilizzabile durante il processo decisionale.

L’elemento tecnico centrale della ricerca è l’utilizzo del concetto di Optimal Transport applicato al preference learning. L’Optimal Transport è una famiglia di metodi matematici utilizzata per confrontare distribuzioni di dati e misurare il costo necessario per trasformare una distribuzione in un’altra. Nel contesto di VOTP, questa tecnica viene impiegata per analizzare e confrontare le distribuzioni dei comportamenti osservati nei video preferiti e non preferiti, consentendo al sistema di individuare automaticamente le caratteristiche che distinguono le azioni considerate desiderabili da quelle considerate indesiderabili.

Questo approccio permette di costruire una funzione di ricompensa implicita senza dover raccogliere enormi dataset di annotazioni umane. Una volta apprese le preferenze fondamentali, il modello può generalizzare tali criteri a situazioni nuove e mai osservate durante l’addestramento. In pratica, invece di imparare singole azioni corrette, il sistema apprende i principi che guidano le scelte umane e li applica a scenari differenti.

La tecnologia risulta particolarmente interessante per la Physical AI, un settore nel quale i sistemi devono prendere decisioni nel mondo reale e non semplicemente generare testo o immagini. In applicazioni come la manipolazione robotica, la chirurgia assistita da robot, la guida autonoma o il controllo di droni, una macchina deve continuamente scegliere tra molteplici azioni possibili. La qualità di queste decisioni dipende direttamente dalla capacità del sistema di comprendere cosa gli esseri umani considerino appropriato, sicuro o efficace.

Secondo i ricercatori, la riduzione della quantità di dati annotati necessari per l’apprendimento potrebbe abbassare significativamente i costi di sviluppo dei sistemi AI fisici. La raccolta di preferenze umane rappresenta infatti uno dei principali colli di bottiglia nella costruzione di modelli avanzati per robotica e automazione. Utilizzando soltanto pochi esempi video, VOTP potrebbe rendere più accessibile l’addestramento di sistemi destinati a robot umanoidi, bracci industriali, veicoli autonomi, robot chirurgici, droni e piattaforme per la produzione intelligente.

L’approccio potrebbe inoltre trovare applicazione oltre la robotica tradizionale. Gli stessi meccanismi di apprendimento delle preferenze possono essere utilizzati per agenti AI che operano direttamente sui computer, consentendo ai sistemi software di apprendere comportamenti desiderati osservando esempi di interazioni corrette invece di richiedere grandi quantità di feedback manuale. In questo senso, VOTP rappresenta un tentativo di ridurre uno dei principali costi nascosti dell’intelligenza artificiale moderna: la necessità di raccogliere enormi volumi di giudizi umani per allineare il comportamento delle macchine alle aspettative delle persone.

Di Fantasy