L’adozione dei modelli linguistici nelle piattaforme e-commerce sta trasformando radicalmente il modo in cui i dati dei merchant vengono elaborati e normalizzati. Shopify ha recentemente presentato un’architettura basata su Qwen 3 che consente di ridurre i costi di inferenza fino a 75 volte rispetto agli approcci precedenti, mantenendo o migliorando la qualità dell’estrazione dei dati. Questo risultato è stato ottenuto attraverso un framework multi-agente progettato per l’elaborazione strutturata delle informazioni provenienti dai merchant, come descrizioni di prodotto, attributi e metadati.
Il problema affrontato da Shopify riguarda la trasformazione di dati non strutturati in informazioni standardizzate utilizzabili all’interno del catalogo globale. Le descrizioni fornite dai merchant sono spesso incomplete, incoerenti o scritte in linguaggio libero, con variabilità terminologica e formattazione non uniforme. In un ecosistema che gestisce milioni di prodotti, l’automazione di questa normalizzazione è essenziale per garantire ricerca, classificazione e raccomandazioni efficaci. I modelli linguistici rappresentano una soluzione naturale, ma il loro costo computazionale diventa rapidamente proibitivo quando l’inferenza deve essere eseguita su larga scala.
La soluzione adottata da Shopify introduce una pipeline multi-agente costruita con DSPy e Qwen 3. In questo schema, il compito di estrazione non viene delegato a un singolo prompt monolitico, ma suddiviso in una sequenza di agenti specializzati che cooperano tra loro. Ogni agente gestisce una fase specifica, come la comprensione semantica, la normalizzazione degli attributi o la validazione dei risultati. Questo approccio riduce la complessità di ogni singola richiesta e consente di ottimizzare l’uso del modello, migliorando l’efficienza complessiva.
Uno degli elementi chiave dell’architettura è l’uso di Qwen 3, un modello open-weights progettato per combinare capacità di ragionamento e inferenza efficiente. L’impiego di modelli open-weights consente una maggiore flessibilità nella configurazione dell’infrastruttura e l’adozione di tecniche di ottimizzazione come quantizzazione, batching e caching. Queste tecniche riducono il costo per richiesta e permettono di scalare il sistema senza un aumento proporzionale delle risorse computazionali.
Il framework multi-agente ha dimostrato anche un miglioramento qualitativo rispetto alla baseline precedente. I risultati riportano un raddoppio della qualità rispetto a un approccio single-prompt basato su modelli più grandi, indicando che la decomposizione del problema in sotto-task migliora la precisione dell’estrazione. Questo suggerisce che la struttura del processo inferenziale può avere un impatto significativo quanto la dimensione del modello utilizzato.
La riduzione dei costi deriva da più fattori combinati. La suddivisione del workflow consente di ridurre la lunghezza dei prompt, diminuendo il numero di token elaborati. Inoltre, gli agenti specializzati possono utilizzare configurazioni differenti del modello, attivando modalità più leggere per i compiti meno complessi. Questo approccio evita l’uso continuo di configurazioni ad alta capacità, che sono più costose in termini di inferenza.
Un ulteriore elemento riguarda l’ottimizzazione del flusso dei dati. La pipeline multi-agente consente il riutilizzo delle informazioni intermedie, evitando la ripetizione di operazioni già eseguite. Questo riduce il numero complessivo di chiamate al modello e migliora la latenza. In ambienti ad alto volume, come quelli e-commerce, anche piccole ottimizzazioni per richiesta possono tradursi in riduzioni di costo significative.
L’approccio adottato da Shopify riflette una tendenza più ampia nell’adozione degli LLM in produzione. Invece di affidarsi a modelli sempre più grandi, le aziende stanno progettando architetture intelligenti che combinano modelli più efficienti con orchestrazione multi-agente. Questo consente di ottenere prestazioni elevate con un costo operativo sostenibile, un requisito fondamentale per applicazioni su larga scala.
La riduzione dei costi di inferenza ha anche implicazioni strategiche. Quando l’elaborazione diventa più economica, diventa possibile eseguire analisi più frequenti e più approfondite. Nel contesto e-commerce, ciò significa aggiornamenti più rapidi del catalogo, migliore qualità dei metadati e capacità di adattare dinamicamente le informazioni dei prodotti. Questo porta a miglioramenti nella ricerca interna, nelle raccomandazioni e nella personalizzazione dell’esperienza utente.
Un aspetto particolarmente rilevante è l’impatto sulla scalabilità. Le piattaforme globali devono gestire volumi estremamente elevati di dati, con milioni di nuovi prodotti e aggiornamenti quotidiani. Ridurre i costi di inferenza di 75 volte significa rendere sostenibile l’uso continuo dell’intelligenza artificiale in queste pipeline. Senza questa ottimizzazione, l’uso estensivo degli LLM rimarrebbe limitato a casi selezionati.
