Inception ha presentato “Mercury”, il primo modello linguistico di grandi dimensioni (LLM) basato su tecniche di diffusione. Questa innovazione rappresenta una svolta significativa nel campo dell’intelligenza artificiale, offrendo prestazioni e velocità senza precedenti rispetto ai modelli tradizionali.
Mercury si distingue per l’utilizzo di un’architettura diffusiva, che consente un’elaborazione più rapida e parallela rispetto ai modelli autoregressivi tradizionali. Grazie a questa tecnologia, Mercury è in grado di processare oltre 1000 token al secondo su GPU Nvidia H100, superando di 5-10 volte la velocità dei modelli attuali. Questa efficienza era precedentemente raggiungibile solo con chip personalizzati per l’inferenza, come quelli di Groq, Cerebras e SambaNova.
La serie Mercury include varianti come Mercury Coder Small e Mercury Coder Mini, specializzate nella generazione di codice. La versione Small ha mostrato prestazioni paragonabili o superiori a modelli come GPT-4o Mini e Claude 3.5 Haiku nei benchmark di codifica. La versione Mini ha ottenuto il secondo posto nella classifica IM Arena, che valuta le preferenze degli utenti, operando a velocità significativamente superiori rispetto ad altri modelli.
Una delle principali innovazioni di Mercury è la sua capacità di integrarsi senza problemi con le infrastrutture esistenti, mantenendo la compatibilità con pipeline di addestramento e tecniche come l’allineamento tramite rinforzo (RLHF) e la generazione aumentata dalla ricerca (RAG). L’architettura diffusiva permette al modello di considerare l’intero contesto durante l’inferenza, migliorando la coerenza e riducendo gli errori. Questa caratteristica lo rende ideale per applicazioni aziendali che richiedono generazione di contenuti rapida e precisa.
Inception è stata fondata da un team di esperti, tra cui Stefano Ermon, professore di informatica alla Stanford University, e ricercatori di istituzioni come UCLA e Cornell University. Oltre all’architettura diffusiva, l’azienda ha implementato tecniche avanzate come l’ottimizzazione diretta delle preferenze (DPO) e l’attenzione flash (Flash Attention) per migliorare le prestazioni del modello.