Immagine AI

Factory ha lanciato Factory Router, un sistema di model-routing pensato per ridurre i costi dell’ingegneria del software in azienda selezionando automaticamente il modello più adatto a ciascun task di coding. Il prodotto è entrato in private research preview il 1° giugno ed è accessibile tramite l’applicazione CLI e quella desktop dell’azienda. L’idea di fondo nasce da un problema concreto e ben preciso: nei team di sviluppo i modelli più potenti finiscono per essere usati anche sulle richieste banali, e questo gonfia la bolletta dei token senza che ci sia un corrispondente aumento di lavoro effettivamente prodotto. Refactor meccanici, aggiornamenti di documentazione, piccoli bug fix e indagini fatte soprattutto di ricerca finiscono sullo stesso percorso premium del lavoro che ha davvero bisogno di prestazioni di frontiera, esaurendo rapidamente i budget.

Il meccanismo che Factory propone ribalta questa impostazione spostando la scelta del modello dal singolo ingegnere al router. Per ogni sessione il sistema sceglie il modello ottimale attingendo a un insieme misto di modelli di frontiera e modelli più efficienti, e se quello selezionato fatica a portare a termine il compito sposta la sessione su un modello più capace per garantire comunque un esito di qualità. A questo si aggiunge un instradamento tra provider diversi quando un endpoint degrada, e una affidabilità dichiarata superiore al 99,9% sulle richieste, ottenuta distribuendo il carico tra modelli, provider e fonti di capacità, con failover tra provider, throughput riservato per i clienti enterprise e la possibilità di indirizzare il lavoro idoneo verso modelli open source ospitati negli Stati Uniti.

I numeri di prestazione sono il punto più interessante perché sono misurati rispetto a una baseline precisa, cioè Claude Opus 4.7. Su Terminal-Bench 2 il router mantiene il 99% del pass rate di Opus 4.7 con un costo per sessione inferiore del 20%, mentre su Legacy-Bench tiene il 96% del pass rate con un costo per sessione inferiore del 25%. La spiegazione tecnica di perché questo sia possibile è il vero contenuto sostanzioso. Factory ha tracciato la frontiera di Pareto del compromesso costo/prestazioni, mappando il pass rate rispetto al costo di sessione completa relativo alla baseline Opus 4.7, e ha osservato che vicino alla cima la curva è quasi piatta: il costo scende rapidamente mentre le prestazioni si muovono appena, perché il primo lavoro che lascia il modello di frontiera è proprio quello che i modelli più economici gestiscono altrettanto bene. Il router lavora su quel tratto piatto, appena prima della curva.

La parte più onesta dell’analisi è quella che mostra cosa succede spingendo il routing oltre quel punto, perché chiarisce che il guadagno non è gratuito ma frutto di una scelta deliberata su dove fermarsi. Il routing più aggressivo misurato porta Terminal-Bench 2 al 56% del costo di Opus ma fa crollare il pass rate all’81%, mentre su Legacy-Bench un costo pari al 30% di quello di Opus corrisponde a un pass rate di appena il 49%. C’è anche un controllo metodologico contro l’obiezione più ovvia, cioè che un router possa risparmiare semplicemente abbandonando in anticipo le sessioni difficili: misurando il costo solo sui task effettivamente completati, la spesa per esecuzione riuscita resta all’80,5% di Opus su Terminal-Bench 2 e al 78,0% su Legacy-Bench, mentre un router che chiude in fretta i casi complicati apparirebbe peggiore con questa metrica perché pagherebbe comunque i tentativi mai conclusi. I dati su Terminal-Bench fanno media su 89 task, il che dà un’idea della base su cui poggiano le percentuali.

Sul piano del controllo aziendale, infine, la logica automatica non è una scatola chiusa. Gli amministratori possono fornire indicazioni di routing che descrivono pattern di lavoro, aree del codice, toolchain e preferenze di modello, così che la selezione automatica rifletta come il lavoro avviene davvero nell’organizzazione, e le stesse policy che governano gli altri modelli in Factory si applicano al router, permettendo di consentirlo o bloccarlo a livello di organizzazione senza un piano di controllo separato.

Di Fantasy