Negli ultimi quattordici giorni, ci sono stati molti aggiornamenti significativi nel campo dell’intelligenza artificiale. Ecco una panoramica dei sette principali framework e modelli rilasciati di recente:
- ActAnywhere: Sviluppato da Adobe Research e Stanford University, questo modello AI genera sfondi video adeguati ai movimenti dei soggetti in primo piano. È una soluzione automatizzata che utilizza modelli di diffusione video su larga scala e richiede solo un fotogramma di condizione e una sequenza di segmentazione del soggetto. Il modello crea video realistici che integrano coerentemente soggetti e sfondi.
- GALA: Una collaborazione tra il Codec Avatars Lab di Meta e la Seoul National University ha portato alla creazione di GALA. Questo framework trasforma una mesh umana 3D vestita a strato singolo in risorse 3D a strati completi, facilitando la creazione di avatar vestiti in varie pose. Utilizza un modello di diffusione 2D per generare geometrie e aspetti realistici e dettagliati.
- Lumiere: Google, in collaborazione con l’Istituto Weizmann, l’Università di Tel-Aviv e il Technion, ha creato Lumiere, un modello da testo a video. Utilizza un’architettura Space-Time U-Net per generare video completi in una volta, superando i limiti dei modelli precedenti. Eccelle nel trasformare il testo in video, ma ha ancora alcune limitazioni in termini di gestione delle scene e delle transizioni.
- Meta-suggerimento: OpenAI e l’Università di Stanford hanno introdotto una tecnica chiamata meta-prompting. Questa tecnica migliora le prestazioni dei modelli linguistici facendoli funzionare come conduttori per gestire più query. Sperimentato con GPT-4, il meta-prompting ha mostrato miglioramenti significativi rispetto ai metodi tradizionali, suddividendo attività complesse in sottoattività più piccole.
- Modelli linguistici autogratificanti: Questo nuovo modello, sviluppato da Meta e NYU, migliora il modo in cui i modelli linguistici seguono le istruzioni. Non si basa sulle ricompense umane ma si autovaluta e migliora attraverso un processo iterativo, generando dati di formazione e ricompense utilizzando il modello stesso come giudice.
- L’attenzione adattiva gaussiana è tutto ciò di cui hai bisogno: Questo studio introduce un meccanismo di attenzione adattativa gaussiana multitesta (GAAM) e un trasformatore adattivo gaussiano (GAT). Queste nuove tecniche migliorano la rappresentazione contestuale e le prestazioni del modello, specialmente con dati altamente variabili, attraverso l’incorporazione della media e della varianza apprendibili.
Ognuno di questi sviluppi rappresenta un passo importante nell’evoluzione dell’intelligenza artificiale, offrendo soluzioni innovative e migliorando le capacità esistenti in modi significativi.