La Cina ha recentemente fatto un passo significativo con il lancio di RoboBrain 2.0, un modello di intelligenza artificiale robotica di nuova generazione sviluppato dalla Beijing Academy of Artificial Intelligence (BAAI). Questo modello rappresenta un avanzamento notevole rispetto al suo predecessore, RoboBrain 1.0, e si inserisce in un contesto più ampio di sviluppo dell’IA incarnata, un campo in cui la Cina sta investendo risorse significative.
RoboBrain 2.0 è progettato per affrontare compiti complessi in ambienti fisici, combinando capacità di percezione spaziale, ragionamento ad alta dimensionalità e pianificazione a lungo termine in un’unica architettura integrata. Disponibile in due versioni—una leggera da 7 miliardi di parametri e una ad alte prestazioni da 32 miliardi—il modello è basato su una struttura multimodale che integra un codificatore visivo ad alta risoluzione e un decodificatore del linguaggio. Questa architettura consente al modello di elaborare vari input, come testo, immagini, video e grafi di scena, eseguendo inferenze e pianificazioni complesse a più stadi.
L’addestramento di RoboBrain 2.0 è stato effettuato in tre fasi. Nella prima fase, il modello acquisisce i concetti base della percezione spaziale e del flusso temporale attraverso l’apprendimento spaziotemporale di base. Successivamente, nella fase di rinforzo del compito integrato, l’apprendimento viene effettuato utilizzando dati di immagini multi-vista ad alta risoluzione, rafforzando la capacità del modello di percepire ambienti 3D reali e gestire le interazioni tra gli oggetti. Nella fase finale, viene applicata la tecnica di ragionamento Chain of Thinking (CoT) per sviluppare la capacità di pensiero graduale, permettendo al modello di affrontare situazioni complesse con più agenti o obiettivi a lungo termine.
Le prestazioni di RoboBrain 2.0 sono impressionanti. Il modello ha superato altri modelli open-source e closed-source esistenti in una varietà di compiti di intelligenza artificiale fisica. Ad esempio, nell’ambito della previsione dell’affordance, ha dimostrato la capacità di identificare con precisione le parti afferrabili, spingibili e manipolabili degli oggetti. Inoltre, in compiti di puntamento o posizionamento preciso di oggetti, è stato in grado di indicare con precisione oggetti o spazi specifici all’interno di una scena in base ai comandi di testo. Le sue eccellenti capacità di previsione del percorso gli consentono di pianificare percorsi di movimento efficienti evitando gli ostacoli circostanti. Nella collaborazione multi-agente, più robot possono svolgere ruoli diversi per raggiungere efficacemente un obiettivo comune.
L’architettura di RoboBrain 2.0 è progettata per gestire input visivi complessi, tra cui immagini multiple, video lunghi e dati ad alta risoluzione. Gli input visivi vengono elaborati tramite un codificatore visivo e un proiettore MLP, mentre gli input testuali vengono trasformati in un flusso di token unificato. Tutti gli input vengono quindi inviati a un decodificatore LLM che esegue un ragionamento a catena, producendo piani strutturati, relazioni spaziali e coordinate relative e assolute.
BAAI ha dichiarato che “RoboBrain 2.0 diventerà il fondamento dell’intelligenza generale che consentirà all’IA di pensare e agire attivamente in ambienti reali” e che “presenterà nuovi standard in vari campi che richiedono la risoluzione di complessi problemi spaziotemporali, come le segretarie IA, il controllo dei robot e la logistica autonoma” . Con il rilascio del codice, dei checkpoint e dei benchmark tramite GitHub, RoboBrain 2.0 è ora accessibile a ricercatori e sviluppatori di tutto il mondo, promuovendo la collaborazione e l’innovazione nel campo dell’intelligenza artificiale incarnata.