È stata appena annunciata da OpenAI una rivoluzione nell’evoluzione di ChatGPT: il sistema ora è in grado di vedere, ascoltare e parlare, diventando un’autentica piattaforma multimodale. Inoltre, ci si aspetta che DALL-E-3 venga integrato sia in ChatGPT che in ChatGPT Enterprise. Nel frattempo, Google sta seguendo una strada simile con il suo sistema multimodale, Gemini, previsto per questo autunno.
Sebbene ci siano in arrivo due prodotti multimodali entro ottobre, non dobbiamo sottovalutare il contributo degli attori open source in questo mercato in crescita. Attualmente, Stability AI e Meta sembrano essere forti contendenti in grado di sfidare questa evoluzione.
Stability AI ha tutte le risorse necessarie per creare un modello multimodale open source. Hanno sviluppato Stable Diffusion per convertire il testo in immagini, Stable LM per la conversione del testo in testo e, come ultima aggiunta, Stable Audio per la generazione di testo in musica. Combinando questi tre modelli, Stability AI potrebbe potenzialmente creare un modello multimodale unico nel suo genere, molto simile a quello di OpenAI. Anche se Stable Audio non è ancora open source, Stability AI ha annunciato i piani futuri di rilasciare un modello open source basato sull’architettura di Stable Audio, supportato da diversi set di dati di addestramento.
Inoltre, all’inizio di quest’anno, Stability AI e il suo laboratorio di ricerca multimodale sull’intelligenza artificiale, DeepFloyd, hanno presentato la ricerca su DeepFloyd IF, un potente modello di diffusione dei pixel a cascata che converte il testo in immagini. Non sarebbe sorprendente vedere un modello multimodale da parte di Stability AI nel prossimo futuro.
In un’inattesa svolta degli eventi, l’ingegnere di OpenAI, Jason Wei, ha recentemente sentito parlare durante un evento sociale di Meta che sta accumulando una potenza di calcolo sufficiente per addestrare sia Llama 3 che Llama 4. Mentre Llama 3 mira a competere in termini di prestazioni con GPT-4, rimarrà gratuito e prevede di offrire funzionalità multimodali open source.
Meta sta lavorando su ImageBind, parte dei suoi sforzi per creare sistemi di intelligenza artificiale multimodali che apprendono da una vasta gamma di tipi di dati. ImageBind è il primo modello in grado di associare informazioni da sei modalità diverse. Questo modello apprende in uno spazio di rappresentazione condiviso non solo per il testo, le immagini/video e l’audio, ma anche per i sensori di profondità 3D, termici (radiazione infrarossa) e inerziali (IMU), che misurano il movimento e la posizione.
Meta ha anche rilasciato il modello multimodale “CM3leon”, che può generare sia testo da immagini che immagini da testo. Inoltre, Seamless M4T di Meta è in grado di eseguire sintesi vocale, traduzione da testo a testo e riconoscimento vocale in un massimo di 100 lingue diverse, a seconda delle esigenze.
Gli LLM open source possono essere personalizzati per adattarsi alle specifiche esigenze di un’organizzazione, aiutando così a ridurre i costi di sviluppo e manutenzione delle applicazioni di intelligenza artificiale. La mancanza di una soluzione multimodale completa nel mercato open source ha spinto gli sviluppatori a sperimentare. Alcuni hanno avuto successo, mentre altri no, ma questa è la natura della comunità open source, che si basa sulla sperimentazione e sul tentativo ed errore.
All’inizio di quest’anno, un gruppo di scienziati provenienti dall’Università del Wisconsin-Madison, Microsoft Research e Columbia University ha sviluppato un sistema multimodale chiamato LLaVA. Si tratta di un LLM multimodale che può gestire sia l’input di testo che di immagini, utilizzando Vicuna come modello linguistico di grandi dimensioni (LLM) e CLIP ViT-L/14 come codificatore visivo.
Allo stesso modo, un altro gruppo di ricercatori presso la King Abdullah University of Science and Technology ha creato MiniGPT-4, un modello open source in grado di eseguire compiti complessi di linguaggio visivo, simile a GPT-4. Per costruire MiniGPT-4, i ricercatori hanno utilizzato Vicuna, basato su LLaMA, come decodificatore linguistico e il BLIP-2 Vision Language Model come decodificatore visivo. Inoltre, per semplificare il processo di creazione del modello multimodale, le comunità open source hanno introdotto modelli come BLIP-2 e mPLUG-Owl.
Mentre la comunità open source sta sperimentando per creare un sistema multimodale funzionale, è fondamentale che Meta e Stability AI intensifichino i loro sforzi e sviluppino presto una soluzione multimodale completa. In caso contrario, Google e OpenAI potrebbero continuare ad ampliare il divario tra le soluzioni open source e quelle closed source.