Meta continua ad avanzare nella sua ricerca sulle nuove forme di modelli di intelligenza artificiale generativa, svelando oggi il suo ultimo sforzo noto come CM3leon (pronunciato come “camaleonte”).
CM3leon è un modello di base multimodale che consente la generazione automatica di testo a immagine e viceversa, rendendolo utile per la creazione automatica di didascalie per le immagini.
L’utilizzo dell’intelligenza artificiale per generare immagini non è una novità, considerando strumenti popolari come Stable Diffusion, DALL-E e Midjourney, che sono ampiamente disponibili.
Quello che differenzia CM3leon è l’approccio utilizzato da Meta per costruirlo e le prestazioni che il modello di base riesce a raggiungere. Attualmente, le tecnologie di generazione da testo a immagine si basano principalmente sull’uso di modelli di diffusione, come nel caso di Stable Diffusion, per creare immagini. CM3leon adotta invece un approccio diverso, basato su un modello autoregressivo basato su token.
“Recentemente, i modelli di diffusione hanno dominato il campo della generazione di immagini grazie alle loro prestazioni elevate e al costo computazionale relativamente ridotto”, scrivono i ricercatori di Meta in un documento di ricerca intitolato “Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning”. “Al contrario, i modelli autoregressivi basati su token producono anche risultati eccellenti, soprattutto per quanto riguarda la coerenza dell’immagine globale, ma richiedono una formazione e un’elaborazione molto più onerosi”.
Ciò che i ricercatori di Meta sono riusciti a dimostrare con CM3leon è che, in realtà, il modello autoregressivo basato su token può essere più efficiente di un approccio basato su modelli di diffusione.
“Nonostante sia stato addestrato con una potenza di calcolo cinque volte inferiore rispetto ai metodi precedenti basati su trasformatori, CM3leon raggiunge prestazioni all’avanguardia nella generazione di testo in immagine”, ha scritto un ricercatore di Meta in un post sul blog.
Il funzionamento di CM3leon è simile a quello dei modelli di generazione di testo esistenti. I ricercatori di Meta hanno iniziato con una fase di pre-formazione potenziata dal recupero. Tuttavia, anziché raccogliere immagini da Internet, il che ha causato alcune sfide legali per i modelli basati sulla diffusione, Meta ha adottato un approccio diverso.
“Le implicazioni etiche del reperimento di dati di immagini nel contesto della generazione di testo in immagine sono state oggetto di un notevole dibattito”, afferma il documento di ricerca di Meta. “In questo studio, abbiamo utilizzato solo immagini con licenza da Shutterstock. In questo modo siamo in grado di evitare preoccupazioni legate alla proprietà e all’attribuzione delle immagini, senza compromettere le prestazioni”.
Dopo la fase di pre-addestramento, il modello CM3leon passa attraverso una fase di messa a punto supervisionata (SFT), che secondo i ricercatori di Meta produce risultati altamente ottimizzati sia in termini di utilizzo delle risorse che di qualità delle immagini. L’approccio SFT è stato utilizzato da OpenAI per aiutare ad addestrare ChatGPT. Meta sottolinea nel suo documento di ricerca che l’SFT viene utilizzato per addestrare il modello a comprendere complessi input e promuovere attività generative.
“Abbiamo scoperto che l’ottimizzazione delle istruzioni amplifica notevolmente le prestazioni del modello multimodale in varie attività, come la generazione di didascalie per le immagini, la risposta a domande basate sull’immagine, l’editing basato sul testo e la generazione di immagini condizionali”, afferma il documento.
Analizzando i campioni di immagini generate che Meta ha condiviso nel suo post sul blog su CM3leon, i risultati sono impressionanti e dimostrano chiaramente la capacità del modello di comprendere richieste complesse a più livelli, generando di conseguenza immagini ad altissima risoluzione.
Attualmente, CM3leon è ancora un progetto di ricerca e non è chiaro se o quando Meta renderà questa tecnologia disponibile pubblicamente su una delle sue piattaforme. Tuttavia, data la sua potenza e l’efficienza nella generazione, è molto probabile che CMleon e il suo approccio all’intelligenza artificiale generativa andranno oltre la fase di ricerca.