Immagine AI

Un team di ricercatori dell’Università di Osaka e del National Institute of Advanced Industrial Science and Technology (AIST) ha sviluppato un innovativo sistema di intelligenza artificiale (IA) che consente ai robot di apprendere e eseguire ricette culinarie semplicemente osservando video di cucina con sottotitoli. Questo avanzato framework combina modelli linguistici di grandi dimensioni (LLM) con una rete orientata agli oggetti funzionali (FOON) per garantire che i piani di attività generati siano sia fattibili che logicamente coerenti.​

I video di cucina rappresentano una fonte ricca di informazioni, ma presentano diverse sfide per l’apprendimento automatico. Spesso mancano di dettagli cruciali, includono scene irrilevanti o sono filmati in modi che complicano l’interpretazione da parte dei robot. Tradurre queste informazioni in sequenze di azioni eseguibili richiede una comprensione approfondita del contenuto e un’efficace pianificazione delle attività.​

Per affrontare queste sfide, i ricercatori hanno combinato LLM e FOON in un framework di pianificazione delle attività e delle azioni (TAMP). Il processo inizia con l’analisi del video di cucina e dei suoi sottotitoli, durante la quale LLM interpreta il contenuto per generare una sequenza di attività. Questa sequenza viene quindi trasformata in un grafico basato su FOON, dove ogni passaggio è valutato per determinarne la fattibilità nell’ambiente del robot.​

Se un’azione risulta impraticabile, il sistema fornisce un feedback che induce LLM a rivedere il piano, assicurando che solo le attività logicamente valide siano incluse nel piano finale. Questo approccio iterativo garantisce che i robot possano eseguire compiti complessi in modo efficace e sicuro.​

I test condotti su cinque ricette tratte da video di cucina hanno mostrato risultati notevoli. Il sistema ha completato con successo quattro delle cinque attività, mentre un metodo che utilizzava solo LLM senza la verifica di FOON ha avuto successo in un solo caso. Inoltre, il framework ha raggiunto una precisione dell’86% nella previsione degli stati degli oggetti, dimostrando una solida capacità di ragionamento e pianificazione.

Di Fantasy