La Seoul National University presenta l’AI multimodale Dynin-Omni che integra testo, immagini, video e audio in un’unica architettura

Un team di ricerca della Seoul National University ha sviluppato Dynin-Omni, un nuovo modello omnimodale progettato per comprendere e generare testo, immagini, video e audio all’interno di un’unica architettura. L’obiettivo dichiarato è superare i limiti dei modelli multimodali tradizionali, che integrano diverse modalità tramite componenti separati e sequenziali, introducendo invece un sistema nativo in grado di elaborare informazioni eterogenee in modo simultaneo.

Dynin-Omni viene descritto come un modello foundation omnimodale che unifica le capacità di comprensione e generazione. A differenza delle architetture modulari, in cui ogni modalità è gestita da un sottosistema distinto, il nuovo approccio consente al modello di trattare tutte le informazioni secondo un’unica rappresentazione interna. Questo elimina la necessità di conversioni intermedie, ad esempio da immagine a testo o da audio a trascrizione, riducendo la perdita di informazioni e migliorando la coerenza tra le modalità. L’architettura è progettata per elaborare simultaneamente più tipi di input e produrre output multimodali integrati, replicando un comportamento più vicino alla percezione umana.

Uno degli elementi distintivi del modello è l’utilizzo di un approccio di generazione basato su diffusione. Invece di produrre i risultati in modo sequenziale, token per token, Dynin-Omni genera inizialmente una struttura globale del contenuto e la raffina progressivamente. Questo metodo consente di accelerare la produzione di output complessi, come video o audio, e di migliorare l’efficienza nella gestione di dati di grandi dimensioni. L’approccio contrasta con i modelli autoregressivi tradizionali, che generano le informazioni in modo lineare e risultano meno efficienti per contenuti multimodali voluminosi.

Il modello integra inoltre in un’unica struttura le funzioni di comprensione e generazione, superando la distinzione tra encoder e decoder tipica delle architetture precedenti. Questa unificazione consente al sistema di analizzare simultaneamente più fonti di dati e di produrre risposte multimodali senza passaggi intermedi. La progettazione punta a ridurre la complessità delle pipeline e a rendere il modello più adatto a scenari in tempo reale, in cui è necessario interpretare e generare informazioni eterogenee in modo immediato.

Dal punto di vista delle prestazioni, Dynin-Omni è stato valutato su 19 benchmark globali relativi a compiti di ragionamento, comprensione video, generazione e modifica di immagini e gestione dell’audio. I risultati indicano che il modello ha superato diversi sistemi omnimodali open source già esistenti, tra cui soluzioni sviluppate da aziende e università internazionali. Secondo i ricercatori, il sistema ha mostrato miglioramenti significativi sia in termini di accuratezza sia di velocità di generazione, con prestazioni fino a quattro o cinque volte più rapide rispetto ad alcune architetture precedenti.

L’approccio omnimodale proposto mira anche a migliorare la generalizzazione del modello. Integrando tutte le modalità in un’unica rappresentazione, il sistema può correlare direttamente informazioni provenienti da diverse fonti sensoriali. Questo consente, ad esempio, di interpretare simultaneamente un video e l’audio associato, oppure di generare descrizioni coerenti che combinano testo e immagini. Tale capacità è particolarmente rilevante per applicazioni che richiedono comprensione contestuale complessa.

Le potenziali applicazioni includono robotica, assistenti AI e dispositivi intelligenti, ambiti in cui la capacità di elaborare più tipi di dati in tempo reale è fondamentale. In questi scenari, un modello omnimodale può analizzare contemporaneamente segnali visivi, audio e testuali, consentendo risposte più rapide e coordinate. Questo rappresenta un passo verso sistemi AI più integrati con l’ambiente fisico, capaci di interagire con il mondo reale in modo più naturale.

L’introduzione di Dynin-Omni evidenzia una direzione evolutiva dell’intelligenza artificiale: il passaggio da modelli multimodali composti da moduli separati a sistemi omnimodali nativi. Questa trasformazione mira a migliorare l’efficienza, ridurre la latenza e aumentare la coerenza tra le modalità. Con l’aumento delle applicazioni che richiedono percezione multimodale, architetture integrate come Dynin-Omni potrebbero diventare componenti fondamentali per la prossima generazione di sistemi intelligenti.

La Seoul National University presenta l’AI multimodale Dynin-Omni che integra testo, immagini, video e audio in un’unica architettura

DiFantasy

Di Fantasy

Articoli correlati

Google aggiunge funzioni di supporto psicologico a Gemini dopo una causa legale

Anthropic non rilascia il suo modello AI per la cybersecurity perché considerato troppo pericoloso

L’esplosione degli agenti di coding sovraccarica GitHub: traffico record e interruzioni del servizio

Ultimi Post

Google aggiunge funzioni di supporto psicologico a Gemini dopo una causa legale

Anthropic non rilascia il suo modello AI per la cybersecurity perché considerato troppo pericoloso

L’esplosione degli agenti di coding sovraccarica GitHub: traffico record e interruzioni del servizio

Z.ai lancia GLM-5.1, l’intelligenza artificiale cinese che lavora da sola per otto ore come un vero ingegnere