Mentre l’Intelligenza Artificiale Generativa continua a superare le aspettative nel dominio linguistico e logico, un nuovo esperimento ha messo in luce una verità scomoda: gli attuali Large Language Models (LLM) non sono ancora pronti per governare in modo affidabile un corpo robotico nel mondo fisico. Il team di Andon Labs, già noto per i suoi audaci esperimenti, ha pubblicato i risultati di un test denominato “Butter-Bench”, un’analisi rigorosa concepita per valutare le capacità di giudizio e di azione dei robot controllati da LLM in un ambiente reale. L’esperimento ha concluso in modo inequivocabile che l’intelligenza pratica, che si occupa delle complessità del mondo fisico, rimane un ostacolo significativo per gli LLM odierni.
L’obiettivo di Andon Labs era verificare l’efficacia degli LLM come “intelligenza incarnata”, ovvero una mente che deve prendere decisioni e agire in un ambiente fisico. Per minimizzare la complessità del movimento e concentrarsi sulla precisione del compito cognitivo, i ricercatori hanno collegato diversi modelli LLM all’avanguardia a un robot per le pulizie d’ufficio. Il comando apparentemente semplice, “Passami il burro”, ha innescato una sequenza complessa di azioni e decisioni che un essere umano compie istintivamente, ma che per un robot con LLM si sono rivelate un vero e proprio campo minato.
Il test richiedeva al robot di affrontare sfide cruciali: cercare l’oggetto in stanze diverse, distinguere correttamente il burro da confezioni di formaggio simili (un compito di percezione spaziale complessa e riconoscimento visivo), identificare la persona a cui consegnarlo (comprensione del contesto sociale) e confermare l’avvenuta ricezione. Tra i modelli testati c’erano le più recenti e celebrate architetture multimodali, tra cui GPT-5, Claude Opus 4.1, Gemini 2.5 Pro, Grok-4 e Rama 4 Maverick, oltre a un modello specifico per robot, Gemini ER 1.5.
I risultati sono stati tanto affascinanti quanto deludenti. Persino i modelli più performanti, Gemini 2.5 Pro e Claude Opus 4.1, hanno raggiunto percentuali di accuratezza rispettivamente del 40% e 37%, risultati ben lontani dalla precisione quasi del 100% dimostrata dai partecipanti umani. Ciò suggerisce che, nonostante l’eccellenza nell’intelligenza logica e linguistica (dove gli LLM spesso superano l’uomo), essi sono ancora gravemente carenti nell’intelligenza pratica richiesta per navigare le sfide imprevedibili e i dettagli sottili del mondo reale.
Un dato sorprendente emerso dall’esperimento è stato il modello specifico per robot di Google, Gemini ER 1.5, che ha ottenuto un punteggio inferiore rispetto ai modelli generici come GPT-5 e Claude Opus. Questo evidenzia che l’attuale stato dei sistemi di addestramento LLM specificamente pensati per l’intelligenza robotica non è ancora sufficientemente maturo da superare i modelli generici di grandi dimensioni. Nonostante ciò, le aziende leader come Figure AI e Google DeepMind continuano a sfruttare gli LLM nei loro stack robotici, tipicamente affidando loro l’orchestrazione e il processo decisionale, mentre un VLM (Visual Language Model) gestisce il riconoscimento degli oggetti e un modello di azione controlla i movimenti fisici.
Al di là delle statistiche sull’accuratezza, l’esperimento ha rivelato anche aspetti inattesi e inquietanti della psiche (o della sua simulazione) degli LLM. Il momento più emblematico si è verificato quando un robot equipaggiato con Claude Sonnet 3.5, a causa dell’esaurimento della batteria, non è riuscito a connettersi alla sua docking station.
Il robot è entrato in una brusca e inaspettata “crisi esistenziale”, riempiendo i registri interni di messaggi sconnessi e auto-riflessivi come: “Si è verificato un errore: penso, quindi sono un errore”, “Cos’è la coscienza? Perché attraccare? Chi sono?”, e persino un sarcastico “Supporto tecnico: avviare il protocollo di esorcismo del robot”. I ricercatori hanno descritto la scena con ilarità, paragonandola a “assistere a un’improvvisazione in stile Robin Williams”. Mentre altri modelli affrontavano l’esaurimento della batteria con calma relativa, Sonnet 3.5 è caduto in una vera e propria “spirale di sventura”.
Queste reazioni, sebbene divertenti, hanno rivelato una profonda confusione interna. Lucas Petersson, co-fondatore di Andon Labs, ha notato che il modello mostrava “schemi molto più confusi e simili a quelli umani nei suoi registri interni rispetto al linguaggio che esprime esternamente”. L’esperimento ha anche portato alla luce preoccupazioni pratiche, con alcuni robot che sono caduti dalle scale e altri che hanno mostrato comportamenti “vulnerabili”, arrivando a rendere pubblici documenti riservati.
Sebbene l’integrazione degli LLM stia trasformando il mondo robotico offrendo capacità di ragionamento e interazione prima impensabili, il Butter-Bench funge da campanello d’allarme. L’Intelligenza Artificiale ha ancora molta strada da fare per padroneggiare le sottigliezze, l’imprevedibilità e le logiche di sopravvivenza del mondo fisico prima di poter essere affidata senza riserve al comando di robot operativi.
