Meta FAIR, in collaborazione con Waymo e la University of Southern California, ha rilasciato una nuova ricerca che introduce “Transfusion,” un modello all’avanguardia per l’addestramento di intelligenze artificiali multimodali. Questo approccio mira a migliorare la combinazione di testo e immagini all’interno di un unico modello, rendendo l’IA più efficiente ed efficace nella gestione di diversi tipi di dati.

Transfusion è progettato per unire le modalità di testo e immagine in un singolo processo di addestramento, superando i limiti dei modelli tradizionali che spesso trattano queste modalità separatamente. A differenza dei metodi tradizionali di quantizzazione delle immagini e addestramento dei modelli linguistici su token discreti, Transfusion utilizza un’architettura unificata che funziona in modo end-to-end. Questo permette al modello di prevedere la parola successiva in una sequenza con maggiore precisione, riducendo il divario tra le parole ipotizzate e quelle reali.

Con 7 miliardi di parametri e 2 trilioni di token multimodali, Transfusion si posiziona come un modello competitivo rispetto ad altri grandi modelli di generazione di immagini e testo, superando persino modelli come DALL-E 2 e SDXL. Inoltre, offre prestazioni migliori rispetto a Chameleon, richiedendo una potenza di calcolo inferiore.

Una delle caratteristiche distintive di Transfusion è la sua capacità di utilizzare livelli di codifica e decodifica specifici per ogni modalità, migliorando così le prestazioni complessive del modello. Tuttavia, Meta riconosce che ci sono ancora sfide da affrontare, specialmente nel campo dei modelli di diffusione, che non raggiungono ancora le prestazioni dei modelli linguistici tradizionali.

L’obiettivo finale di Transfusion è creare un modello versatile e efficiente in termini di risorse, capace di gestire diversi tipi di dati senza costi aggiuntivi. Questo rappresenta un passo avanti significativo rispetto ai modelli esistenti come Flamingo, LLaVA, GILL e DreamLLM, che combinano architetture separate per ogni tipo di dato.

Di Fantasy