Immagine AI

La corsa globale verso quella che molti definiscono “intelligenza artificiale fisica” – ovvero sistemi capaci non solo di comprendere testo e immagini, ma di interagire concretamente con l’ambiente reale – si arricchisce di un nuovo protagonista. Il 10 del mese, Alibaba ha annunciato il rilascio open source di RynnBrain, un modello di base progettato specificamente per supportare i robot nell’esecuzione di compiti nel mondo fisico, con un’attenzione particolare alla comprensione dello spazio, del tempo e delle relazioni tra oggetti.

Con questa mossa, Alibaba entra ufficialmente nel terreno dell’AI incarnata, dove l’intelligenza non si limita alla generazione linguistica ma diventa capacità di pianificazione, percezione e azione. RynnBrain è stato concepito per interagire con l’ambiente circostante in modo integrato, analizzando simultaneamente input visivi e istruzioni testuali e trasformandoli in piani operativi concreti. Il modello è in grado di riconoscere oggetti, memorizzarne la posizione, prevedere traiettorie e sequenze di movimento e pianificare azioni passo dopo passo per raggiungere obiettivi anche in contesti complessi e dinamici.

Dal punto di vista tecnico, Alibaba ha reso disponibili diverse varianti del modello. Sono stati rilasciati due modelli densi con scala da 2 miliardi e 8 miliardi di parametri, insieme a una versione 30B-A3B basata su un’architettura Mixture of Experts, che attiva dinamicamente 3 miliardi di parametri su un totale di 30 miliardi. A queste versioni si aggiungono tre modelli specializzati di post-apprendimento: LeanBrain-Plan, focalizzato sulla pianificazione delle attività robotiche; LeanBrain-Nav, dedicato alla navigazione visivo-linguistica; e LeanBrain-CoP, che introduce un meccanismo di inferenza “Chain-of-Point” capace di ragionare a livello di singolo punto nello spazio.

Uno degli aspetti più interessanti del progetto è la capacità del sistema di alternare ragionamento testuale e verifica spaziale, costruendo inferenze strettamente collegate alla realtà fisica. RynnBrain analizza in modo dettagliato i flussi provenienti dalle telecamere, risponde a domande, conta oggetti, riconosce simboli e lettere, ma soprattutto integra queste informazioni in una rappresentazione spaziotemporale coerente. È in grado di localizzare con precisione oggetti specifici, identificare posizioni target e calcolare percorsi di movimento all’interno delle scene memorizzate, combinando prospettiva globale ed egocentrica, come se osservasse e agisse direttamente nel contesto.

L’architettura utilizzata è di tipo encoder-decoder integrato e supporta sia configurazioni dense sia MoE. Questo consente di ricevere informazioni multimodali – immagini, testo e segnali ambientali – e convertirle in output operativi quali traiettorie di movimento, coordinate di puntamento o sequenze di azioni. In altre parole, il modello non si limita a “descrivere” ciò che vede, ma può trasformare la comprensione in un piano concreto che tenga conto delle leggi fisiche e delle proprietà degli oggetti. Questa integrazione tra percezione e pianificazione rappresenta un passaggio cruciale per rendere i robot più autonomi e meno dipendenti da script predefiniti.

Alibaba ha sottolineato che RynnBrain mantiene capacità di uso generale grazie all’addestramento su grandi volumi di dati, pur eccellendo nel ragionamento complesso e nella pianificazione in ambienti reali. Nei benchmark pubblici, l’azienda afferma di aver raggiunto prestazioni di livello SOTA, superando modelli concorrenti come Google DeepMind con Gemini Robotics-ER 1.5 e Nvidia con Cosmos Reason-2. Secondo quanto comunicato, RynnBrain avrebbe stabilito nuovi record in 16 test open source che misurano consapevolezza ambientale, ragionamento spaziale e performance in compiti robotici.

Il contesto strategico rende l’annuncio particolarmente significativo. Negli ultimi anni Alibaba ha investito fortemente nei modelli linguistici di grandi dimensioni, recuperando terreno rispetto ai concorrenti statunitensi. Ora l’espansione verso l’intelligenza artificiale fisica si inserisce in una visione più ampia che vede la robotica, inclusi gli umanoidi, come settore prioritario per la Cina. Se finora si è spesso ritenuto che gli Stati Uniti mantenessero un vantaggio nell’AI applicata alla robotica, l’ingresso deciso di Alibaba in questo ambito segnala la volontà di colmare rapidamente il divario.

Un elemento rilevante è la scelta dell’open source. RynnBrain è disponibile pubblicamente su piattaforme come Hugging Face e GitHub, consentendo a ricercatori, sviluppatori e aziende di esplorare e adattare il modello a diversi scenari applicativi. Questa apertura può accelerare l’adozione e favorire un ecosistema di sperimentazione intorno all’AI fisica, ampliando la base di innovazione oltre i confini aziendali.

Di Fantasy