Immagine AI

La capacità di indirizzare le richieste degli utenti al modello linguistico più adatto è diventata una sfida cruciale. Katanemo Labs ha recentemente introdotto Arch-Router, un modello di routing innovativo che promette di rivoluzionare il modo in cui le aziende gestiscono e distribuiscono i compiti tra diversi modelli linguistici di grandi dimensioni (LLM).

Con l’espansione dell’uso degli LLM, molte imprese stanno passando da configurazioni monomodello a sistemi multi-modello, sfruttando le specifiche forze di ciascun modello per compiti distinti, come la generazione di codice, la sintesi di testi o l’editing di immagini. In questo contesto, il routing degli LLM è emerso come una tecnica fondamentale per costruire e distribuire questi sistemi, fungendo da “controllore del traffico” che indirizza ogni richiesta utente al modello più appropriato.

Tuttavia, i metodi di routing esistenti presentano limitazioni. Il routing basato su compiti predefiniti può avere difficoltà con intenzioni utente poco chiare o mutevoli, specialmente in conversazioni articolate. D’altro canto, il routing basato sulle prestazioni si concentra rigidamente sui punteggi di benchmark, trascurando spesso le preferenze reali degli utenti e adattandosi male ai nuovi modelli, a meno di costosi affinamenti. Come sottolineano i ricercatori di Katanemo Labs nel loro studio, “gli approcci di routing esistenti hanno limitazioni nell’uso del mondo reale. Tipicamente ottimizzano per le prestazioni dei benchmark trascurando le preferenze umane guidate da criteri di valutazione soggettivi”.

Per affrontare queste sfide, i ricercatori propongono un framework di routing “allineato alle preferenze” che abbina le richieste alle politiche di routing basate su preferenze definite dall’utente. In questo framework, gli utenti definiscono le loro politiche di routing in linguaggio naturale utilizzando una “Tassonomia Dominio-Azione”. Questa gerarchia a due livelli riflette come le persone descrivono naturalmente i compiti, partendo da un argomento generale (il Dominio, come “legale” o “finanza”) e restringendosi a un compito specifico (l’Azione, come “sintesi” o “generazione di codice”).

Ogni politica viene quindi collegata a un modello preferito, consentendo agli sviluppatori di prendere decisioni di routing basate su esigenze reali piuttosto che solo su punteggi di benchmark. Il processo di routing avviene in due fasi: prima, un modello di routing allineato alle preferenze prende la richiesta dell’utente e l’intero set di politiche e seleziona la politica più appropriata; successivamente, una funzione di mappatura collega quella politica selezionata al suo LLM designato.

Poiché la logica di selezione del modello è separata dalla politica, i modelli possono essere aggiunti, rimossi o scambiati semplicemente modificando le politiche di routing, senza la necessità di riaddestrare o modificare il router stesso. Questa separazione offre la flessibilità necessaria per implementazioni pratiche, dove modelli e casi d’uso sono in continua evoluzione.

Per costruire Arch-Router, i ricercatori hanno affinato una versione del modello Qwen 2.5 con 1,5 miliardi di parametri su un set di dati curato di 43.000 esempi. Hanno quindi testato le sue prestazioni confrontandole con modelli proprietari all’avanguardia di OpenAI, Anthropic e Google su quattro set di dati pubblici progettati per valutare i sistemi di intelligenza artificiale conversazionale. I risultati mostrano che Arch-Router ottiene il punteggio di routing complessivo più alto, pari al 93,17%, superando tutti gli altri modelli, inclusi quelli proprietari di punta, con una media del 7,71%. Il vantaggio del modello cresce con conversazioni più lunghe, dimostrando la sua forte capacità di tracciare il contesto su più turni.

In pratica, questo approccio viene già applicato in diversi scenari. Ad esempio, in strumenti di codifica open-source, gli sviluppatori utilizzano Arch-Router per indirizzare diverse fasi del loro flusso di lavoro, come “progettazione del codice”, “comprensione del codice” e “generazione del codice”, agli LLM più adatti per ciascun compito. Allo stesso modo, le imprese possono indirizzare le richieste di creazione di documenti a un modello come Claude 3.7 Sonnet, mentre inviano compiti di editing di immagini a Gemini 2.5 Pro. Il sistema è anche ideale per assistenti personali in vari domini, dove gli utenti hanno una varietà di compiti, dalla sintesi di testi a richieste fattuali. In questi casi, Arch-Router può aiutare gli sviluppatori a unificare e migliorare l’esperienza complessiva dell’utente.

Questo framework è integrato con Arch, il server proxy nativo dell’intelligenza artificiale di Katanemo Labs per agenti, che consente agli sviluppatori di implementare regole sofisticate di modellazione del traffico. Ad esempio, quando si integra un nuovo LLM, un team può inviare una piccola porzione di traffico per una politica di routing specifica al nuovo modello, verificare le sue prestazioni con metriche interne e quindi passare completamente il traffico con fiducia. L’azienda sta anche lavorando per integrare i suoi strumenti con piattaforme di valutazione per semplificare ulteriormente questo processo per gli sviluppatori aziendali.

Arch-Router sta dimostrando che il futuro del routing degli LLM non deve essere rigido o costoso. Con il suo approccio innovativo e la capacità di adattarsi facilmente a nuovi modelli e casi d’uso, offre una soluzione pratica e scalabile per le imprese che cercano di ottimizzare l’assegnazione dei compiti tra diver

Di Fantasy