Nel cuore delle nuove frontiere dell’Intelligenza Artificiale incrociata con la robotica — chiamata “Embodied AI” — emerge una novità che promette di ridefinire il modo in cui i robot percepiscono e interagiscono con il mondo reale. A Seattle, l’Allen Institute for AI (Ai2) presenta MolmoAct, un modello open source che non si limita a “vedere” o “capire” il mondo in due dimensioni, ma riesce davvero a ragionare in tre dimensioni.
Immagina di dare un comando semplice, come “sposta quella tazza sul tavolo vicino alla finestra”. Un modello tradizionale potrebbe interpretare il testo e tentare di eseguire l’azione, spesso in maniera rigida o poco precisa. MolmoAct, invece, costruisce un’intera rappresentazione spaziale: genera perception token radicati nella profondità, stimando distanza e disposizione degli oggetti, traccia percorsi in forma di waypoint entro lo spazio visivo e solo alla fine traduce il piano in comandi motori dettagliati per il robot — un processo che assomiglia molto a un allenamento di precisione manuale in tempo reale.
La bellezza di questo approccio risiede anche nella sua apertura: MolmoAct è completamente open source. Codice, modelli, dati — tutto è rilasciato con licenze permissive (Apache 2.0 per i modelli, CC BY‑4.0 per i dataset), offrendo una base trasparente per ricerca, sperimentazione e miglioramento da parte della comunità. Questa filosofia di trasparenza sfida il monopolio dei modelli proprietari e chiusi — come quelli di Google o Nvidia — offrendo uno slancio verso un’Intelligenza Artificiale collaborativa e accessibile.
I risultati sperimentali dimostrano il potenziale di MolmoAct: nei test di simulazione “SimplerEnv”, ha raggiunto un tasso di successo del 72,1 %, superando modelli concorrenti di Google, Microsoft e Nvidia. Il modello MolmoAct‑7B‑D ha raggiunto ulteriore eccellenza su benchmark complessi, come LIBERO, con 86,6 % di successo in compiti a lungo termine, mostrando una maggiore capacità di generalizzazione rispetto a ThinkAct e altri sistemi.
La natura modulare di MolmoAct lo rende adattabile a diverse configurazioni robotiche — bracci meccanici o robot umanoidi — richiedendo solo una minima fase di fine-tuning per mantenere alte prestazioni. E i risultati si spingono anche oltre: in scenari del mondo reale, MolmoAct ha migliorato del 10 % le prestazioni delle manipolazioni con un solo braccio e del 22,7 % con due bracci, rispetto ai modelli precedenti.
Cosa rende così rilevante MolmoAct? La sua capacità di trasformare comandi testuali in piani spaziali visivi e motori concreti lo rende più robusto in ambienti imprevedibili, come una casa, dove oggetti, geometrie e perturbazioni impreviste richiedono una flessibilità che i modelli VLA tradizionali non hanno.
Questa innovazione rappresenta sia una sfida sia un’opportunità. Come sottolinea un esperto di robotica, si tratta di “un progresso importante nel ragionamento fisico 3D”, che apre la strada a modelli più consapevoli dello spazio — pur restando lontani dalla complessità della realtà quotidiana. Inoltre, il cofondatore di una startup attiva nella robotica — Daniel Maturana — ha celebrato la scelta dell’Ai2 di rendere i dati disponibili, definendola “una base solida per laboratori accademici e anche hobbisti intenti a sperimentare”.