OpenAI e Broadcom hanno presentato Jalapeño, il primo processore AI progettato da OpenAI per l’inferenza dei modelli linguistici e sviluppato con Broadcom, Celestica e i partner destinati alla futura infrastruttura dei data center. Il chip non nasce come acceleratore general purpose adattato successivamente ai carichi AI, ma come ASIC costruito attorno ai requisiti specifici dell’esecuzione di LLM, dei sistemi di serving e dei prodotti interattivi basati su modelli generativi.
Jalapeño è il primo elemento di una piattaforma di calcolo multi-generazione che OpenAI intende distribuire inizialmente entro la fine del 2026. La collaborazione con Broadcom era stata annunciata nell’ottobre 2025 con un piano per 10 gigawatt di acceleratori personalizzati e sistemi di rete; il nuovo processore rappresenta quindi il primo componente hardware concreto di quella roadmap, destinata a crescere nei data center OpenAI e nelle infrastrutture dei partner negli anni successivi.
La progettazione è stata impostata partendo dai carichi di lavoro che OpenAI esegue quotidianamente per ChatGPT, Codex, API e futuri prodotti agentici. In un sistema di inferenza, il problema non consiste soltanto nel calcolare le operazioni matematiche necessarie a generare un token. Una parte rilevante dell’efficienza dipende dal trasferimento dei pesi del modello, dalla gestione della cache, dalla memoria disponibile, dalla comunicazione tra acceleratori, dal batching delle richieste e dalla latenza con cui il sistema restituisce risposte nei flussi conversazionali o nelle attività a più passaggi.
OpenAI indica che Jalapeño è stato ottimizzato intorno ai kernel, ai movimenti di memoria, ai pattern di rete e ai sistemi di serving utilizzati nei modelli frontier. L’architettura è stata progettata per ridurre la quantità di dati spostati tra componenti diversi del sistema e per bilanciare risorse di calcolo, memoria e networking, con l’obiettivo di avvicinare l’utilizzo effettivo dell’hardware ai limiti teorici dell’acceleratore. Questa impostazione è particolarmente importante nei modelli linguistici di grandi dimensioni, nei quali il collo di bottiglia può dipendere dalla disponibilità e dalla movimentazione dei dati più che dalla sola potenza di calcolo.
Il chip è stato costruito anche per combinare throughput elevato e bassa latenza. Il throughput indica quante richieste o token possono essere elaborati complessivamente in un intervallo di tempo, mentre la latenza determina quanto rapidamente un singolo utente riceve l’inizio o il completamento della risposta. Nei prodotti interattivi, questi due requisiti devono convivere: un’infrastruttura può essere efficiente nel processare grandi volumi, ma risultare poco adatta a una chat, a un assistente di coding o a un agente che deve effettuare molte chiamate sequenziali se i tempi di risposta restano troppo alti.
Le prime unità ingegneristiche di Jalapeño sono già operative nei laboratori OpenAI alla frequenza e al consumo energetico previsti per la produzione, con test che includono GPT-5.3-Codex-Spark. OpenAI non ha ancora pubblicato benchmark completi né specifiche dettagliate su processo produttivo, memoria, numero di core o prestazioni assolute, ma dichiara che i test iniziali indicano un rapporto prestazioni per watt sensibilmente superiore agli acceleratori AI di fascia alta attualmente disponibili. Un report tecnico con misurazioni più complete dovrebbe essere pubblicato nei prossimi mesi.
Broadcom contribuisce alla fase di implementazione del silicio e alla rete necessaria per portare il processore su larga scala. L’infrastruttura utilizzerà anche tecnologie di networking Broadcom, compreso il silicio Tomahawk, mentre Celestica si occupa dell’integrazione delle schede, dei rack e dei sistemi completi. Il risultato non è quindi un chip isolato, ma una piattaforma che include acceleratore, connettività, interconnessioni, rack, sistemi di distribuzione e meccanismi di produzione destinati a data center di grandi dimensioni.
Uno degli aspetti più rilevanti riguarda il tempo di sviluppo. OpenAI e Broadcom dichiarano di avere completato il percorso dal design iniziale al tape-out produttivo in nove mesi. Il tape-out è la fase nella quale il progetto del chip viene finalizzato e inviato alla fonderia per la produzione fisica del silicio. Le due aziende attribuiscono questa tempistica alla collaborazione ravvicinata tra software, hardware e progettazione del silicio, ma anche all’uso dei modelli OpenAI per accelerare parti del processo di design e ottimizzazione.
In questo caso l’AI non viene usata soltanto come carico di lavoro destinato a girare sul nuovo processore: gli stessi modelli impiegati dagli utenti hanno contribuito a progettare l’infrastruttura hardware che supporterà le generazioni successive. OpenAI non ha specificato quali attività siano state affidate ai modelli, né quale quota del lavoro ingegneristico sia stata automatizzata, ma l’obiettivo dichiarato è ridurre il tempo necessario per sviluppare acceleratori specializzati e abbassare progressivamente il costo dell’inferenza.
Jalapeño è progettato per essere compatibile con modelli linguistici diversi, non soltanto con quelli OpenAI. La scelta consente di trattare l’acceleratore come una piattaforma orientata alle caratteristiche comuni dell’inferenza LLM, piuttosto che come hardware vincolato a una singola architettura proprietaria. OpenAI potrà comunque usarlo innanzitutto per i propri modelli e prodotti, sfruttando la conoscenza diretta dei formati di servizio, dei carichi agentici, delle modalità di utilizzo e delle esigenze di scalabilità della propria infrastruttura.
Il progetto amplia la strategia full-stack di OpenAI, che ora include prodotti, modelli, sistemi di serving, infrastrutture di rete e processori dedicati. Con Jalapeño, il controllo non si limita più alla scelta dei modelli da addestrare o alle API con cui vengono distribuiti, ma arriva fino al livello dell’hardware che esegue l’inferenza. L’obiettivo dichiarato è aumentare la disponibilità di calcolo, rendere le risposte più rapide e affidabili e ridurre i costi necessari per fornire modelli avanzati attraverso ChatGPT, Codex, API e servizi destinati a sviluppatori e imprese.