Nvidia e l’Università di Tel Aviv presentano Perfusion, l’AI delle micro-immagini

Novità nell’ambito dell’intelligenza artificiale: Nvidia ha svelato con entusiasmo il suo nuovo strumento chiamato “Perfusion”, un potente generatore di immagini basato su intelligenza artificiale (AI). Sviluppato in collaborazione con l’Università di Tel Aviv, questo straordinario modello di soli 100 KB ha un tempo di addestramento incredibilmente breve di soli 4 minuti per creare immagini personalizzate di alta qualità.

Perfusion ha superato tutti i generatori di immagini AI esistenti, come Stable Diffusion e Midjourney, grazie alla sua straordinaria efficienza, nonostante le sue dimensioni ridotte e il veloce processo di addestramento.

La chiave di questo straordinario risultato è il concetto di “Key-Locking”. Perfusion utilizza questo approccio per collegare i concetti desiderati, come “gatto” o “sedia”, a categorie più ampie, come “felino” o “mobili”. Questo impedisce al modello di incorrere in overfitting, ovvero l’adattamento eccessivo al campione di allenamento corretto, e consente all’AI di generare immagini creative e variegate dei concetti richiesti.

In pratica, il “blocco dei tasti” consente all’IA di creare concetti personalizzati, come “il mio gatto Tom che dorme, gioca con il filo e annusa i fiori”, mantenendo la coerenza e l’identità del soggetto. È come dare istruzioni a un artista per ottenere un disegno specifico, ma con il potere e la velocità dell’AI.

Perfusion offre tre tipi di serrature a chiave, ognuna con risultati diversi. La “Global Key Lock” permette maggiore variabilità visiva, consentendo rappresentazioni precise di oggetti o attività con sfumature insolite, come un “libro di lettura in una postura umana” o un “gatto vestito da chef”. Anche il “blocco tasti locale” è efficace, seppur meno versatile rispetto al blocco globale. Infine, il metodo “Trained-K” è ottimo per immagini di addestramento, ma può ridurre la somiglianza con il testo.

A differenza di altre AI, che producono un’unica immagine combinando concetti separati, Perfusion è in grado di mescolare e combinare diversi concetti appresi in base alle istruzioni del testo per creare un’unica immagine finale. Questo processo consente agli utenti di combinare concetti come “gatto”, “occhiali da sole” e “sedia” semplicemente con messaggi di testo.

Una caratteristica notevole di Perfusion è il controllo dell’equilibrio tra la somiglianza dell’immagine e la somiglianza del testo durante l’inferenza. Gli utenti possono regolare con facilità un singolo modello da 100 KB per ottenere l’equilibrio ottimale senza doverlo riaddestrare. Aumentando o diminuendo la polarizzazione, è possibile ottenere diverse somiglianze tra il testo e l’immagine risultante.

Tuttavia, è importante mantenere un certo grado di flessibilità nella messa a punto del modello, poiché un’eccessiva ottimizzazione può portare a risultati troppo rigidi e poco creativi.

Rispetto ad altri generatori di immagini AI, Perfusion offre un’eccezionale somiglianza sia tra l’immagine creata e il testo, soddisfacendo le aspettative degli utenti. Grazie al dimensionamento efficiente, gli aggiornamenti delle immagini possono essere eseguiti durante il perfezionamento, senza la necessità di riaddestrare l’intero modello.

L’annuncio di Perfusion ha già suscitato un grande interesse e Nvidia ha pubblicato un documento di ricerca dettagliato sull’argomento. L’azienda prevede inoltre di rilasciare il codice sorgente di Perfusion nel prossimo futuro, aprendo nuove opportunità per l’uso e lo sviluppo di questa straordinaria tecnologia nell’ambito dell’intelligenza artificiale.

Nvidia e l’Università di Tel Aviv presentano Perfusion, l’AI delle micro-immagini

DiFantasy

Di Fantasy

Articoli correlati

OpenAI rileva un problema di reward hacking durante l’addestramento di GPT-5 legato alla valutazione CoT

Google usa EVE Online per addestrare agenti AI più autonomi e strategici per l’AGI

Le frasi ripetitive di ChatGPT in cinese mostrano i limiti dell’AI conversazionale nella localizzazione dei modelli linguistici

Ultimi Post

OpenAI rileva un problema di reward hacking durante l’addestramento di GPT-5 legato alla valutazione CoT

Google usa EVE Online per addestrare agenti AI più autonomi e strategici per l’AGI

Le frasi ripetitive di ChatGPT in cinese mostrano i limiti dell’AI conversazionale nella localizzazione dei modelli linguistici

Nvidia presenta Star Elastic, la tecnica che permette di ottenere più modelli AI da un singolo checkpoint