I modelli di base stanno rivoluzionando la robotica introducendo sistemi visione-linguaggio-azione (VLA) che possono generalizzare oltre i dati di addestramento, coprendo oggetti, scene e compiti vari.
Tuttavia, la loro adozione è stata limitata dalla mancanza di trasparenza e dalle sfide nell’implementazione e nell’adattamento a nuovi ambienti.
Per affrontare queste sfide, ricercatori di Stanford, UC Berkeley, Toyota Research Institute, Google Deepmind e altri hanno presentato OpenVLA, un modello VLA open source addestrato su una vasta gamma di dimostrazioni di robot nel mondo reale.
OpenVLA supera altri modelli simili nelle attività robotiche ed è progettato per ottimizzazioni efficienti su GPU accessibili.
Con i modelli di base che diventano fondamentali nella robotica, OpenVLA promette di rendere questi sistemi più accessibili e adattabili per aziende e laboratori di ricerca.