Immagine AI

Sakana AI, startup innovativa che sfida le convenzioni tradizionali e fondata da esperti con esperienze significative in Google e Stability AI, ha sviluppato TreeQuest, una tecnica che consente a più modelli linguistici di grandi dimensioni (LLM) di collaborare su un singolo compito, creando una sorta di “squadra dei sogni” di agenti AI. Questa metodologia, denominata Multi-LLM AB-MCTS, permette ai modelli di apprendere tramite tentativi ed errori e di combinare le loro forze uniche per risolvere problemi troppo complessi per un singolo modello.

Ogni modello AI ha punti di forza e debolezza derivanti dai suoi dati di addestramento e dalla sua architettura. Ad esempio, uno potrebbe eccellere nella scrittura creativa, mentre un altro nella programmazione. Sakana AI considera queste differenze non come limitazioni, ma come risorse preziose per creare intelligenza collettiva. Proprio come le più grandi realizzazioni umane derivano da team diversi, anche i sistemi AI possono ottenere di più lavorando insieme. Combinando le loro intelligenze, i sistemi AI possono risolvere problemi che sono insormontabili per un singolo modello.

TreeQuest si basa su una tecnica di “scaling al momento dell’inferenza” (inference-time scaling), un’area di ricerca che ha guadagnato popolarità negli ultimi anni. Mentre la maggior parte dell’attenzione nell’AI è stata rivolta allo “scaling al momento dell’addestramento” (rendere i modelli più grandi e addestrarli su set di dati più ampi), lo scaling al momento dell’inferenza migliora le prestazioni allocando più risorse computazionali dopo che un modello è già stato addestrato. Un approccio comune prevede l’uso dell’apprendimento per rinforzo per indurre i modelli a generare sequenze di pensiero più lunghe e dettagliate, come visto in modelli popolari come OpenAI o3 e DeepSeek-R1. Un altro metodo più semplice è il campionamento ripetuto, in cui al modello viene fornito lo stesso prompt più volte per generare una varietà di potenziali soluzioni, simile a una sessione di brainstorming. Il lavoro di Sakana AI combina e avanza queste idee.

Il cuore della nuova metodologia è un algoritmo chiamato Adaptive Branching Monte Carlo Tree Search (AB-MCTS). Questo algoritmo consente a un LLM di eseguire efficacemente tentativi ed errori bilanciando strategicamente due diverse strategie di ricerca: “cercare più a fondo” e “cercare più ampiamente”. Cercare più a fondo implica prendere una risposta promettente e perfezionarla ripetutamente, mentre cercare più ampiamente significa generare soluzioni completamente nuove da zero. AB-MCTS combina questi approcci, permettendo al sistema di migliorare una buona idea ma anche di cambiare direzione e provare qualcosa di nuovo se si trova a un vicolo cieco o scopre un’altra direzione promettente.

I ricercatori hanno testato il loro sistema Multi-LLM AB-MCTS sul benchmark ARC-AGI-2, progettato per testare la capacità umana di risolvere problemi di ragionamento visivo nuovi, rendendolo notoriamente difficile per l’AI. Il team ha utilizzato una combinazione di modelli all’avanguardia, tra cui o4-mini, Gemini 2.5 Pro e DeepSeek-R1. La collettività di modelli è stata in grado di trovare soluzioni corrette per oltre il 30% dei 120 problemi di test, un punteggio che ha superato significativamente qualsiasi dei modelli singoli. Il sistema ha dimostrato la capacità di assegnare dinamicamente il miglior modello per un dato problema. Inoltre, sono stati osservati casi in cui i modelli hanno risolto problemi precedentemente impossibili per qualsiasi singolo modello.

Per aiutare sviluppatori e aziende ad applicare questa tecnica, Sakana AI ha rilasciato l’algoritmo sottostante come framework open-source chiamato TreeQuest, disponibile con licenza Apache 2.0 (utilizzabile per scopi commerciali). TreeQuest fornisce un’API flessibile, consentendo agli utenti di implementare Multi-LLM AB-MCTS per i propri compiti con punteggi e logiche personalizzate. Oltre al benchmark ARC-AGI-2, il team è stato in grado di applicare con successo AB-MCTS a compiti come la codifica algoritmica complessa e il miglioramento dell’accuratezza dei modelli di machine learning. AB-MCTS potrebbe anche essere altamente efficace per problemi che richiedono tentativi ed errori iterativi, come l’ottimizzazione delle metriche di prestazione di software esistenti.

Di Fantasy