Meta ha presentato un’anteprima di Chameleon, la sua nuova famiglia di modelli progettata per affrontare le sfide dell’intelligenza artificiale multimodale. A differenza dei modelli esistenti che combinano diverse modalità separatamente, Chameleon è stato progettato per apprendere in modo nativo da una miscela di immagini, testo, codice e altre modalità.
Chameleon utilizza un’architettura “modale mista basata su token a fusione precoce”, che consente al modello di comprendere e generare sequenze di immagini e testo interlacciati senza componenti specifici della modalità. Questo approccio è diverso dalla “fusione tardiva” utilizzata dalla maggior parte dei modelli, che ha limitazioni nella integrazione delle informazioni tra le modalità.
Gli esperimenti preliminari con Chameleon hanno dimostrato prestazioni all’avanguardia in compiti come la didascalia delle immagini e la risposta visiva alle domande (VQA), mantenendo al contempo una buona competitività nei compiti basati solo sul testo. Meta ha addestrato Chameleon su un vasto set di dati contenente trilioni di token di testo, coppie immagine-testo e sequenze interlacciate di testo e immagini.
Chameleon ha dimostrato di essere competitivo anche nei compiti basati solo sul testo, come il ragionamento basato sul buon senso e le attività di comprensione della lettura, pur concentrandosi principalmente sulla multimodalità. La sua capacità di generare contenuti multimodali ha suscitato interesse, soprattutto tra le startup di robotica che stanno esplorando l’integrazione di modelli linguistici nei sistemi di controllo dei robot.
Sebbene OpenAI e Google abbiano annunciato anche nuovi modelli multimodali, Meta sembra essere in prima linea nel fornire dettagli sui propri modelli. La potenziale apertura dei pesi per Chameleon potrebbe renderlo un’alternativa più accessibile ai modelli privati.
In definitiva, Chameleon rappresenta un passo significativo verso la realizzazione di modelli di intelligenza artificiale unificati in grado di comprendere e generare contenuti multimodali in modo flessibile e sofisticato.