Un team di ricercatori di OpenAI ha pubblicato un articolo su un nuovo modello, chiamato modello di coerenza temporale continua (sCM), che aumenta di 50 volte la velocità di generazione di contenuti multimediali, come immagini, video e audio, rispetto ai tradizionali modelli di diffusione. Con sCM, è possibile generare immagini in circa un decimo di secondo, rispetto ai più di 5 secondi necessari con i modelli tradizionali.
Grazie all’introduzione di sCM, OpenAI ha raggiunto una qualità del campione comparabile utilizzando solo due fasi di campionamento, offrendo una soluzione che accelera il processo generativo senza compromettere la qualità.
Descritto in un articolo pre-revisione paritaria pubblicato su arXiv.org e in un blog scritto dai ricercatori Cheng Lu e Yang Song, sCM consente di generare campioni di alta qualità in soli due passaggi, in netto contrasto con i modelli di diffusione precedenti, che richiedevano centinaia di passaggi.
Song ha precedentemente contribuito a un articolo del 2023 che ha introdotto il concetto di “modelli di coerenza”, in cui i modelli hanno “punti sulla stessa mappa della traiettoria verso lo stesso punto iniziale”.
Sebbene i modelli di diffusione abbiano prodotto risultati eccezionali nella generazione di immagini realistiche e modelli 3D, la loro inefficienza nel campionamento, che richiede numerosi passaggi sequenziali, li rende meno adatti per applicazioni in tempo reale.
Nei modelli di diffusione tradizionali, la creazione di un campione richiede molti passaggi di denoising, contribuendo alla loro bassa velocità. Invece, sCM converte il rumore in campioni di alta qualità in uno o due passaggi, riducendo significativamente i costi e i tempi di calcolo.
Il modello sCM più grande di OpenAI, con 1,5 miliardi di parametri, è in grado di generare un campione in soli 0,11 secondi su una singola GPU A100. Ciò si traduce in un’accelerazione dei tempi di elaborazione di 50 volte rispetto ai modelli di diffusione, rendendo l’uso di intelligenza artificiale generativa in tempo reale molto più pratico.
Il team di ricerca ha addestrato il modello sCM utilizzando il dataset ImageNet a una risoluzione di 512×512, scalando fino a 1,5 miliardi di parametri. Anche a questa scala, il modello mantiene una qualità di campionamento che si avvicina a quella dei migliori modelli di diffusione, ottenendo un punteggio Fréchet Inception Distance (FID) di 1,88 su ImageNet.
Questa prestazione colloca la qualità del campione a solo il 10% di distanza dai modelli di diffusione, che richiedono risorse computazionali notevolmente superiori per ottenere risultati simili.
L’approccio di OpenAI è stato confrontato con altri modelli generativi all’avanguardia. Misurando sia la qualità del campione tramite i punteggi FID sia l’efficienza del campionamento, la ricerca dimostra che sCM fornisce risultati di alta qualità con un overhead computazionale significativamente inferiore.
A differenza dei metodi precedenti di campionamento rapido, che spesso sacrificano la qualità del campione o richiedono configurazioni di addestramento complicate, sCM supera queste sfide, offrendo sia velocità che alta fedeltà.
La rapida capacità di campionamento e la scalabilità dei modelli sCM aprono nuove possibilità per l’intelligenza artificiale generativa in tempo reale in vari ambiti. Dalla generazione di immagini alla sintesi audio e video, sCM rappresenta una soluzione praticabile per applicazioni che richiedono output rapidi e di alta qualità.
Inoltre, la ricerca di OpenAI suggerisce che potrebbero essere possibili ulteriori ottimizzazioni, aumentando ulteriormente le prestazioni e adattando questi modelli alle esigenze specifiche di diversi settori.