Hugging Face ha recentemente presentato SmolVLA, un modello open source di intelligenza artificiale progettato per la robotica, che si distingue per la sua compattezza ed efficienza. Con soli 450 milioni di parametri, SmolVLA è in grado di eseguire compiti complessi in ambienti simulati e nel mondo reale, utilizzando hardware di consumo come un MacBook o una GPU di fascia media.
SmolVLA è stato sviluppato per democratizzare l’accesso alla robotica avanzata, consentendo a ricercatori e sviluppatori di lavorare con modelli di intelligenza artificiale potenti senza la necessità di infrastrutture costose. Questo modello è stato addestrato utilizzando dataset condivisi dalla comunità, come quelli disponibili attraverso l’iniziativa LeRobot di Hugging Face, che promuove la collaborazione aperta nella raccolta e condivisione di dati per la robotica.
La struttura di SmolVLA combina un modulo di visione-linguaggio (VLM) con un esperto delle azioni, utilizzando tecniche avanzate di attenzione e inferenza asincrona per migliorare la reattività del sistema. Questa architettura consente al robot di interpretare simultaneamente input visivi, linguistici e sensoriali, e di generare azioni appropriate in tempo reale. L’uso dell’inferenza asincrona separa i processi di percezione e azione, riducendo i tempi di risposta e migliorando le prestazioni in ambienti dinamici.
Nonostante le sue dimensioni contenute, SmolVLA ha dimostrato prestazioni superiori a modelli più grandi in vari benchmark, tra cui LIBERO e Meta-World. In scenari del mondo reale, come attività di prelievo e posizionamento, ha ottenuto un tasso di successo medio del 78,3%, superando modelli precedenti come π₀ e ACT. Questi risultati evidenziano l’efficacia di SmolVLA nel gestire compiti complessi con risorse limitate.
L’introduzione di SmolVLA rappresenta un passo significativo verso una robotica più accessibile e versatile. La capacità di eseguire modelli avanzati su hardware di consumo apre nuove possibilità per l’educazione, la ricerca e lo sviluppo di applicazioni robotiche in vari settori. Con l’impegno di Hugging Face nel promuovere un ecosistema open source, SmolVLA contribuisce a ridurre le barriere all’ingresso nel campo della robotica, stimolando l’innovazione e la collaborazione globale.