Una delle sfide più rilevanti per le aziende non è più soltanto ottenere prestazioni AI elevate, ma farlo in modo sostenibile dal punto di vista economico. È in questo contesto che si inserisce la nuova strategia di orchestrazione presentata da Anthropic, che ridefinisce il ruolo dei modelli linguistici avanzati introducendo un approccio basato sulla separazione funzionale tra esecuzione e consulenza.
Il cuore di questa impostazione risiede nella cosiddetta “Advisor Strategy”, una struttura che modifica radicalmente il paradigma tradizionale di progettazione degli agenti AI. Invece di affidare a un unico modello ad alte prestazioni l’intero ciclo decisionale ed esecutivo, il sistema distribuisce i compiti tra modelli con caratteristiche e costi differenti, ottimizzando l’uso delle risorse computazionali. In particolare, modelli come Claude Sonnet e Claude Haiku assumono il ruolo di esecutori principali, mentre il più potente Claude Opus interviene esclusivamente come consulente nei momenti in cui è richiesto un livello superiore di ragionamento.
Questa distinzione non è soltanto nominale, ma si traduce in un cambiamento sostanziale del flusso operativo. Nei sistemi convenzionali di orchestrazione, il modello più avanzato funge da orchestratore centrale: analizza il problema, lo scompone in sottocompiti e coordina l’esecuzione attraverso modelli subordinati. Sebbene efficace dal punto di vista qualitativo, questo approccio comporta costi elevati, poiché ogni fase del processo coinvolge risorse computazionali di alto livello.
La strategia proposta da Anthropic ribalta questa logica. Il controllo del flusso viene affidato ai modelli più economici, che gestiscono l’intero ciclo di esecuzione e decidono autonomamente quando richiedere l’intervento del modello avanzato. Claude Opus non esegue direttamente le operazioni né interagisce con strumenti esterni, ma fornisce indicazioni strategiche: suggerisce piani di lavoro, corregge deviazioni, valuta la qualità intermedia dei risultati e stabilisce se proseguire o interrompere un processo.
Questo ruolo consultivo comporta un utilizzo estremamente mirato delle capacità del modello più costoso. In termini pratici, Opus interviene generando output relativamente brevi, generalmente compresi tra 400 e 700 token, limitati a specifiche fasi decisionali. L’elaborazione massiva e la produzione dei risultati rimangono invece a carico dei modelli più leggeri, con un impatto diretto sulla riduzione dei costi complessivi.
Un elemento particolarmente interessante di questa architettura è la sua implementazione tecnica. Anthropic ha introdotto uno strumento di consulenza integrato nella piattaforma Claude che consente di attivare questa collaborazione tra modelli attraverso una semplice configurazione API. L’interazione tra esecutore e consulente avviene all’interno di una singola richiesta, eliminando la necessità di orchestrazioni esterne complesse, gestione manuale del contesto o concatenazioni di chiamate multiple. Questo aspetto è cruciale perché riduce significativamente la complessità ingegneristica, rendendo la strategia accessibile anche in contesti produttivi ad alto carico.
I risultati riportati mostrano un miglioramento tangibile. Nei test interni condotti su benchmark come SWE-Bench Multilingual, la combinazione di Claude Sonnet con il supporto consulenziale di Claude Opus ha registrato un incremento di 2,7 punti percentuali, raggiungendo un punteggio del 74,8%. Questo dato è particolarmente significativo perché dimostra che l’ottimizzazione dei costi non avviene a discapito della qualità, ma può addirittura contribuire a migliorarla grazie a un uso più mirato delle capacità avanzate.
Il costo per operazione ha subito una riduzione dell’11,9%, evidenziando come l’efficienza economica sia uno dei principali benefici di questa architettura. Nei benchmark BrowseComp e Terminal-Bench 2.0, la configurazione ibrida ha superato le prestazioni dell’esecuzione standalone di Sonnet, mantenendo al contempo un costo inferiore.
Ancora più evidente è il vantaggio economico quando si utilizza Claude Haiku in combinazione con il modello consulente. In questo caso, le prestazioni risultano inferiori rispetto a Sonnet, ma il costo per attività si riduce drasticamente, fino all’85% in meno. Questo scenario evidenzia la flessibilità della strategia, che può essere adattata in funzione delle priorità specifiche: massimizzazione della qualità o ottimizzazione estrema dei costi.
L’approccio introduce quindi un nuovo livello di granularità nella progettazione dei sistemi AI, consentendo di modulare dinamicamente il rapporto tra prestazioni e spesa computazionale. Non si tratta più di scegliere un modello “giusto” per un’intera applicazione, ma di costruire un ecosistema di modelli che collaborano in modo differenziato, attivando le risorse più costose solo quando strettamente necessario.
Questa evoluzione ha implicazioni particolarmente rilevanti per i servizi di intelligenza artificiale aziendali, dove il volume di richieste può essere molto elevato e i costi operativi rappresentano un fattore critico. In tali contesti, la possibilità di riservare l’uso di modelli avanzati come Claude Opus alle sole fasi decisionali consente di scalare l’infrastruttura mantenendo un equilibrio sostenibile tra qualità e spesa.
Le dichiarazioni di Eric Simons sottolineano ulteriormente il cambio di paradigma introdotto da questa strategia, evidenziando come essa consenta una progettazione architetturale più efficiente per i compiti complessi senza appesantire quelli semplici. In altre parole, l’intelligenza del sistema non deriva più esclusivamente dalla potenza del singolo modello, ma dalla capacità di orchestrare in modo intelligente un insieme eterogeneo di risorse.
La “Advisor Strategy” rappresenta un passo significativo verso una nuova generazione di sistemi AI distribuiti, in cui la distinzione tra modelli non è solo una questione di dimensioni o prestazioni, ma di ruolo funzionale all’interno di un’architettura complessa. Questo approccio potrebbe diventare uno standard per le implementazioni future, soprattutto in un contesto in cui l’efficienza economica è destinata a diventare un fattore competitivo tanto quanto la qualità delle risposte.
La disponibilità in versione beta e l’integrazione diretta tramite API indicano che questa evoluzione non è soltanto teorica, ma già pronta per essere sperimentata in ambienti reali.
