Il valore degli agenti AI enterprise non deriva più esclusivamente dalla potenza del singolo modello linguistico, ma dalla capacità di orchestrare dinamicamente più modelli differenti all’interno dello stesso workflow. È precisamente questo il problema affrontato da Sakana AI con il nuovo framework “RL Conductor”, un sistema progettato per addestrare piccoli modelli open source a coordinare LLM molto più grandi e specializzati, tra cui OpenAI GPT-5, Anthropic Claude Sonnet 4 e Google DeepMind Gemini 2.5 Pro.
Il punto centrale della ricerca non consiste nello sviluppo di un nuovo frontier model, ma nella creazione di un “meta-controller” capace di decidere in tempo reale quale modello utilizzare, in quale sequenza e per quale sotto-task specifico. In pratica, Sakana AI parte dal presupposto che nessun LLM sia realmente ottimale per ogni scenario operativo. Alcuni modelli eccellono nel ragionamento matematico, altri nella scrittura strutturata, altri ancora nella programmazione o nella comprensione multimodale. L’obiettivo del RL Conductor è quindi imparare automaticamente come comporre questi sistemi in pipeline dinamiche invece di utilizzare workflow statici e rigidamente predefiniti.
Per dimostrare il funzionamento del framework, Sakana AI ha effettuato il fine-tuning di un modello open source Qwen2.5-7B, trasformandolo in un orchestratore specializzato. Durante l’addestramento, il modello riceveva accesso a un pool composto da sette worker differenti: tre modelli closed source di fascia frontier — GPT-5, Claude Sonnet 4 e Gemini 2.5 Pro — e quattro modelli open source tra cui DeepSeek-R1-Distill-Qwen-32B, Gemma3-27B e Qwen3-32B.
La caratteristica più importante del sistema è l’utilizzo del reinforcement learning invece delle tradizionali regole hardcoded tipiche degli orchestratori agentici. Nei framework classici, infatti, la sequenza operativa viene progettata manualmente dagli sviluppatori: si definisce quale modello debba eseguire un task, quali strumenti possano essere richiamati e quali passaggi seguire. Nel caso del RL Conductor, invece, il modello apprende autonomamente queste strategie attraverso reward dinamici basati sulla qualità finale della risposta, sul costo computazionale e sul numero di token utilizzati.
Il sistema opera come un policy model specializzato nella decisione sequenziale. Il modello orchestratore non genera direttamente la risposta finale principale, ma costruisce una pipeline operativa composta da più passaggi. Per ogni step decide quale worker invocare, quale prompt inviare, se utilizzare output intermedi come contesto e quando interrompere il processo. VentureBeat evidenzia che il framework permette workflow agentici fino a cinque step consecutivi.
Questa architettura introduce un cambiamento sostanziale rispetto all’attuale paradigma enterprise basato sul “single model dominance”. Negli ultimi anni gran parte delle aziende ha cercato di identificare il modello migliore da utilizzare universalmente nei propri workflow. Sakana AI propone invece una logica simile a quella dei sistemi distribuiti eterogenei: il modello ottimale dipende dal task corrente, dal contesto e persino dal costo operativo istantaneo.
Uno degli aspetti più rilevanti emersi dalla ricerca riguarda proprio l’efficienza computazionale: il sistema sviluppato da Sakana AI riesce a ottenere prestazioni competitive utilizzando fino a sei volte meno token rispetto ai workflow multi-agent tradizionali. Questo elemento è particolarmente importante perché uno dei problemi più gravi degli agenti AI enterprise moderni è la crescita esplosiva del costo inferenziale dovuto alla proliferazione di chiamate multiple ai modelli.
Nei sistemi multi-agent convenzionali, infatti, ogni task può generare catene estremamente lunghe di interazioni tra agenti, spesso ridondanti. Diversi studi recenti sull’orchestrazione multi-agent mostrano che la cooperazione tra modelli tende ad aumentare rapidamente la complessità computazionale e il consumo token senza garantire miglioramenti proporzionali della qualità finale. Il framework Sakana cerca di affrontare proprio questo problema, insegnando al controller quando utilizzare modelli avanzati e quando invece evitare passaggi superflui.
Dal punto di vista operativo, il RL Conductor funziona in modo molto diverso rispetto ai classici router LLM utilizzati oggi nei sistemi enterprise. I router tradizionali operano generalmente con classificatori statici: identificano il tipo di richiesta e inoltrano il task a un modello predefinito. Il sistema Sakana, invece, apprende strategie sequenziali adattive. Questo significa che la decisione successiva dipende dai risultati intermedi prodotti dai modelli precedenti. L’orchestrazione non è quindi deterministica ma dinamica e contestuale.
Il framework introduce inoltre una distinzione importante tra capacità generativa e capacità meta-cognitiva. Il piccolo modello Qwen2.5-7B non deve essere il migliore nel coding, nella matematica o nella scrittura. Deve invece diventare efficiente nel decidere quale modello sia più adatto a ciascun segmento del problema. In altre parole, Sakana AI tratta il modello da 7 miliardi di parametri come una sorta di “scheduler cognitivo”.
Questo approccio è particolarmente interessante anche sotto il profilo economico. L’utilizzo continuo di modelli frontier come GPT-5 o Gemini 2.5 Pro comporta costi inferenziali molto elevati, soprattutto nei workflow agentici persistenti. Un orchestratore piccolo ed economico che richiami selettivamente modelli più costosi solo quando realmente necessari può ridurre drasticamente il costo operativo totale dei sistemi AI enterprise.
La ricerca si inserisce in una tendenza più ampia che sta ridefinendo l’architettura stessa degli agenti AI. Negli ultimi mesi il settore sta progressivamente passando da agenti monolitici a sistemi modulari orchestrati, nei quali differenti modelli specializzati collaborano dinamicamente. Questa evoluzione ricorda in parte il passaggio storico dall’elaborazione single-core alle architetture distribuite multi-processo nel mondo dei sistemi operativi tradizionali.
Un altro elemento importante riguarda la crescente separazione tra “intelligence” e “coordination layer”. Nei primi sistemi generativi, il modello linguistico coincideva con l’intero sistema operativo AI. Oggi invece stanno emergendo layer intermedi dedicati esclusivamente all’orchestrazione, alla memoria, alla pianificazione e alla gestione dei tool.
La scelta di utilizzare reinforcement learning invece del supervised fine-tuning tradizionale è anch’essa significativa. Nei workflow multi-agent non esiste quasi mai una singola sequenza “corretta” da imitare. Possono esistere molte strategie valide per raggiungere lo stesso risultato finale. Il reinforcement learning consente quindi al modello di esplorare differenti combinazioni operative e apprendere progressivamente quelle più efficienti.
Questo tipo di orchestrazione potrebbe avere implicazioni molto rilevanti per il futuro delle piattaforme enterprise AI. Invece di scegliere un unico provider LLM dominante, le aziende potrebbero costruire ambienti eterogenei nei quali differenti modelli vengono selezionati dinamicamente in base al task, alla latenza richiesta, al costo massimo consentito, alla sensibilità dei dati o alla qualità necessaria dell’output.
L’aspetto forse più importante della ricerca Sakana AI è però il cambiamento filosofico sottostante: la convinzione che il futuro dell’AI non dipenda necessariamente dalla costruzione di modelli sempre più grandi, ma dalla capacità di coordinare in modo intelligente sistemi differenti. In questo scenario, il vantaggio competitivo non deriva soltanto dalla qualità del singolo LLM, ma dalla qualità dell’orchestrazione che governa l’intero ecosistema di modelli.
