Negli ultimi anni, l’intelligenza artificiale (AI) ha compiuto progressi straordinari, ma ha sempre presentato una limitazione fondamentale: l’incapacità di elaborare diversi tipi di dati come fa l’essere umano. La maggior parte dei modelli AI è unimodale, specializzandosi in un solo formato come testo, immagini, video o audio. Sebbene adeguati per compiti specifici, questo approccio rende l’AI rigida, impedendole di connettere e comprendere informazioni provenienti da diverse modalità sensoriali.​

Meta AI ha introdotto MILS (Multimodal Integrated Learning System), un sistema progettato per superare le limitazioni dei modelli unimodali. MILS è in grado di integrare informazioni da diverse modalità sensoriali, come testo, immagini e audio, permettendo all’AI di comprendere e correlare dati eterogenei. Questa capacità di apprendimento integrato rappresenta una svolta significativa, poiché consente all’intelligenza artificiale di avvicinarsi alla flessibilità e alla comprensione multimodale tipiche degli esseri umani.​

Una delle caratteristiche più rivoluzionarie di MILS è la sua capacità di apprendere senza la necessità di esempi specifici per ogni compito, nota come “zero-shot learning”. Tradizionalmente, l’AI richiede grandi quantità di dati etichettati per apprendere un compito specifico. Tuttavia, MILS è in grado di generalizzare e applicare conoscenze apprese da una modalità a compiti in modalità diverse, riducendo significativamente la necessità di dati etichettati specifici. Questo approccio non solo migliora l’efficienza dell’apprendimento, ma amplia anche le potenzialità applicative dell’AI in scenari con dati limitati o inesistenti.

Di Fantasy