Immagine AI

Gestire sistemi di intelligenza artificiale multimodale su una piattaforma con oltre 620 milioni di utenti richiede un equilibrio sempre più delicato tra qualità delle risposte, velocità di elaborazione e costi di inferenza. Pinterest ha affrontato il problema intervenendo direttamente sull’architettura dei modelli utilizzati per l’analisi delle immagini, ottenendo una riduzione dei costi fino al 90% rispetto all’utilizzo diretto dei modelli frontier completi.

La soluzione adottata non consiste semplicemente nel passaggio a modelli open source, ma nella modifica strutturale della pipeline multimodale. Pinterest ha preso come base Qwen3-VL e ha rimosso il componente di visione originale, sostituendolo con un sistema proprietario di embedding visivi già ottimizzato per il proprio ecosistema. In pratica, invece di utilizzare l’intero stack multimodale del modello, le informazioni provenienti dalle immagini vengono trasformate in rappresentazioni compatte attraverso modelli interni e successivamente inviate alla parte linguistica responsabile del ragionamento e della generazione delle risposte.

Questa scelta riduce drasticamente il numero di operazioni necessarie durante l’inferenza e permette di sfruttare asset costruiti negli anni per la classificazione visiva, la comprensione dei contenuti e i sistemi di raccomandazione della piattaforma. Il risultato è un’infrastruttura multimodale più economica, ma anche più aderente ai dati e alle esigenze specifiche di Pinterest.

L’azienda sta adottando una strategia definita “model-agnostic”, nella quale modelli proprietari, modelli open source e sistemi closed source vengono combinati in base al rapporto tra costo e prestazioni. I modelli open source vengono utilizzati soprattutto per visual understanding, labeling e attività multimodali ad alto volume, mentre sistemi come quelli di OpenAI e Anthropic restano impiegati nei casi in cui offrono ancora vantaggi significativi in termini di qualità o produttività interna.

La riduzione dei costi non deriva quindi da un singolo modello più efficiente, ma da una scomposizione delle capacità multimodali in componenti specializzati. Invece di acquistare l’intero pacchetto di un modello frontier per ogni richiesta, Pinterest utilizza moduli differenti per visione, comprensione semantica, personalizzazione e generazione, assegnando a ciascun componente il compito più adatto. È un approccio che riflette una tendenza crescente nell’AI enterprise: i modelli generalisti vengono sempre più spesso trasformati in infrastrutture modulari, dove ogni layer può essere sostituito, ottimizzato o personalizzato in funzione dei costi operativi e delle esigenze del prodotto finale.

Di Fantasy