Un team di ricercatori cinesi ha recentemente sviluppato un modello linguistico multimodale (LMM) open-source chiamato IXC2.5-OL. Questo modello è in grado di percepire, ragionare e memorizzare informazioni simultaneamente, emulando il modo in cui gli esseri umani elaborano l’ambiente circostante.
IXC2.5-OL si distingue per la sua capacità di gestire contemporaneamente percezione, ragionamento e memoria, superando le limitazioni dei modelli sequenziali tradizionali che trattano questi processi separatamente. Il framework è composto da tre moduli principali:
- Modulo di Percezione in Streaming: Responsabile dell’elaborazione in tempo reale di input audio e video, utilizzando modelli come ‘Whisper’ per il riconoscimento vocale e ‘CLIP-L/14’ per l’analisi video. Questo modulo estrae caratteristiche di alto livello dai flussi in ingresso, identificando informazioni cruciali come voci umane e suoni ambientali, che vengono poi memorizzate.
- Modulo di Memoria a Lungo Termine Multimodale: Converte ed integra le informazioni percepite in una memoria a lungo termine efficiente, migliorando la precisione nel recupero dei dati e riducendo i costi di memoria. Ad esempio, è in grado di comprimere milioni di frame video in unità di memoria gestibili.
- Modulo di Ragionamento: Utilizza algoritmi avanzati per recuperare informazioni pertinenti dalla memoria e affrontare compiti complessi, rispondendo in modo efficace alle query degli utenti.
IXC2.5-OL ha mostrato prestazioni notevoli in vari benchmark:
- Riconoscimento Vocale: Ha registrato un tasso di errore di parola (WER) del 7,8% nel test in cinese ‘Wenetspeech’ e dell’8,4% nel ‘Test Meeting’, superando modelli come ‘VITA’ e ‘Mini-Omni’. Nei benchmark in inglese, ha ottenuto un WER del 2,5% su dati puliti e del 9,2% in ambienti rumorosi nel ‘LibriSpeech’.
- Elaborazione Video: Ha eccelso in compiti di inferenza tematica e rilevamento di anomalie, con un punteggio del 66,2% in ‘MLVU’ e del 73,79% in ‘StreamingBench’.
- Questi risultati evidenziano l’efficacia del sistema nell’elaborazione simultanea di flussi di dati multimodali, rendendolo particolarmente adatto per interazioni in tempo reale.
Basato sul modello open-source ‘InternLM’, noto per le sue elevate prestazioni, IXC2.5-OL è disponibile per la comunità scientifica su piattaforme come GitHub e Hugging Face. La sua architettura innovativa potrebbe rivoluzionare lo sviluppo di sistemi AI in grado di interagire con l’ambiente in modo più umano, aprendo nuove possibilità in campi come l’assistenza virtuale, la robotica e le interfacce uomo-macchina.