E’ stati riportato lo sviluppo di un nuovo modello linguistico basato sulla tecnologia di diffusione, denominato DLM (Diffusion-based Language Model), che offre prestazioni fino a 10 volte più veloci e costi ridotti di un fattore 10 rispetto ai tradizionali Large Language Models (LLM). Questa innovazione è stata introdotta da Inception, una startup fondata dal professor Stefano Ermon della Stanford University.
Tradizionalmente, la tecnologia di diffusione è stata utilizzata nella generazione di contenuti multimediali, come immagini, video e audio, con esempi noti come Midjourney e DALL-E di OpenAI. Questi modelli operano generando una rappresentazione approssimativa del contenuto desiderato e successivamente affinando i dettagli attraverso la rimozione del rumore. In contrasto, gli LLM basati su architetture transformer generano testo in modo sequenziale, parola per parola, il che può limitare la velocità e l’efficienza.
Il professor Ermon ha ipotizzato che l’applicazione della tecnologia di diffusione alla generazione di testo potrebbe consentire la creazione di blocchi di testo più ampi in parallelo, migliorando sia la velocità che l’efficienza. Questa intuizione ha portato allo sviluppo di DLM, che sfrutta la diffusione per generare e modificare grandi segmenti di testo simultaneamente.
Secondo Inception, DLM offre prestazioni significativamente superiori rispetto agli LLM tradizionali. In particolare, modelli di codifica di dimensioni ridotte hanno dimostrato di eguagliare le prestazioni di GPT-4 Mini di OpenAI, ma con una velocità 10 volte maggiore. Inoltre, i modelli DLM di medie dimensioni superano le prestazioni di LLaMA 3.1 8B di Meta, elaborando oltre 1000 token al secondo. Questi risultati suggeriscono che DLM può fornire risposte più rapide e a costi operativi inferiori, rendendolo una soluzione attraente per applicazioni su larga scala.
Un aspetto chiave del successo di DLM è la sua capacità di utilizzare le GPU in modo più efficiente. Il professor Ermon ha evidenziato che questo approccio rappresenta un cambiamento significativo nel modo in cui vengono costruiti i modelli linguistici, potenzialmente influenzando l’intero settore dell’intelligenza artificiale.
Inception offre DLM attraverso diverse modalità, tra cui API, soluzioni on-premise e distribuzioni su dispositivi edge. Inoltre, supporta la personalizzazione dei modelli per vari casi d’uso, mettendo a disposizione una suite di DLM pronti all’uso per diverse applicazioni. L’azienda ha già attirato l’interesse di numerosi clienti, inclusi alcuni appartenenti alla lista Fortune 100, che cercano soluzioni per ridurre la latenza e migliorare le prestazioni delle loro applicazioni AI.
Dopo un periodo di operatività in modalità stealth, Inception ha deciso di rendere pubbliche le proprie innovazioni, suggerendo una possibile apertura verso nuovi investimenti e collaborazioni nel prossimo futuro.