Per operare efficacemente, i robot devono possedere tre capacità fondamentali: comprendere con precisione l’ambiente circostante, pianificare le azioni appropriate e muoversi con accuratezza. Tradizionalmente, queste funzioni erano gestite da modelli separati, ma recentemente è stato introdotto un modello integrato ad alte prestazioni denominato ‘Vision-Language-Action Model’ (VLAM).​

Il 20 febbraio 2025, un team di ricercatori di Microsoft, in collaborazione con l’Università del Maryland, l’Università del Wisconsin-Madison, il Korea Advanced Institute of Science and Technology (KAIST) e l’Università di Washington, ha pubblicato uno studio su un nuovo VLAM chiamato ‘Magma’. Questo modello mira a superare le limitazioni dei precedenti modelli VLA, che, nonostante l’addestramento su ampi dataset di coppie visione-linguaggio e dati di azione, faticavano ad adattarsi a una varietà di ambienti.​

Ad esempio, modelli come ‘Pix2Act’, specializzato nella navigazione delle interfacce utente (UI), e ‘OpenVLA’ e ‘RT-2’, focalizzati sulla manipolazione robotica, eccellevano in compiti specifici ma presentavano scarse capacità di generalizzazione e richiedevano processi di addestramento separati. Inoltre, questi modelli avevano difficoltà nell’integrare l’intelligenza spaziale e temporale, rendendo complessa la gestione autonoma di compiti articolati.​

Per affrontare queste sfide, Magma combina comprensione multimodale, azione basata su comportamenti e pianificazione attraverso un robusto metodo di addestramento. Il modello è stato istruito su un vasto dataset contenente 39 milioni di campioni, incorporando due nuove tecniche denominate ‘Set-of-Mark’ (SoM) e ‘Trace-of-Mark’ (ToM) per potenziare le capacità in ambienti UI.​

La struttura di Magma prevede l’uso del modello di visione ‘ConvNetXt-XXL’ per l’elaborazione delle immagini e del modello linguistico ‘LLaMA-3-8B’ per la gestione degli input testuali, facilitando un’integrazione fluida tra comprensione visivo-linguistica ed esecuzione delle azioni. L’addestramento ha incluso dataset diversificati come ‘Cyclic’, ‘VisionToUI’, ‘Ego4D’, ‘Something-Something V2’ ed ‘Epic-Kitchens’, migliorando l’apprendimento dei comportamenti e la capacità di prevedere azioni future.​

I risultati sono promettenti: nei compiti di navigazione UI zero-shot, Magma ha raggiunto un’accuratezza del 57,2% nella selezione degli elementi, superando modelli come ‘GPT-4V-Omniperceiver’ e ‘Cyclic’. Nei test di manipolazione robotica di Google e nelle simulazioni Bridge, ha ottenuto tassi di successo rispettivamente del 52,3% e del 35,4%, dimostrando performance superiori rispetto a ‘OpenVLA’. Nei test di video question-answering come IntentQA e NextQA, Magma ha registrato un’accuratezza dell’88,6% e del 72,9%, evidenziando una gestione efficace delle informazioni temporali.​

Queste capacità rendono Magma particolarmente utile per applicazioni robotiche nel mondo reale. Ad esempio, un robot potrebbe premere correttamente i pulsanti su una macchina da caffè automatica o competere in una partita di scacchi comprendendo l’interfaccia utente e adottando le azioni appropriate. I ricercatori sottolineano che “Magma è il primo modello di base in grado di interpretare input multimodali e fornire giustificazioni, pianificando ed eseguendo azioni per raggiungere obiettivi specifici”.

Di Fantasy