Un nuovo modello di intelligenza artificiale (IA) chiamato DenseAV, sviluppato dai ricercatori del MIT, sta rivoluzionando il modo in cui le macchine apprendono il linguaggio. Simulando il processo di apprendimento dei bambini, DenseAV impara a collegare suoni e immagini osservando video, senza bisogno di testo o annotazioni.
Immaginate un bambino che guarda un video di qualcuno che prepara una torta. Il bambino sente la frase “cuocere una torta a 350 gradi” e vede contemporaneamente immagini di una torta e di un forno. In questo modo, il bambino impara ad associare le parole ai rispettivi oggetti. DenseAV funziona in modo simile, ma a un livello ancora più dettagliato.
Il modello analizza separatamente i dati audio e video, estraendo segnali significativi da entrambi. Confrontando questi segnali, DenseAV impara a collegare i suoni alle immagini corrispondenti, anche a livello di singoli pixel. Ad esempio, può imparare ad associare il suono dell’abbaiare di un cane ai pixel che rappresentano l’immagine del cane in un video.
Questa capacità di apprendere a livello di pixel permette a DenseAV di identificare anche gli elementi di sfondo nei video, acquisendo informazioni molto più dettagliate rispetto ai modelli che analizzano solo i fotogrammi interi.
I ricercatori hanno addestrato DenseAV su un enorme set di dati di video di YouTube e hanno creato un nuovo set di dati per testare la sua capacità di collegare suoni e immagini. I risultati sono stati sorprendenti: DenseAV ha superato altri modelli avanzati in compiti come l’identificazione di oggetti tramite nome e suono.
Una delle applicazioni più interessanti di DenseAV potrebbe essere la comprensione della comunicazione animale. Poiché il modello non si basa su testo scritto, potrebbe essere utilizzato per decifrare linguaggi come quelli dei delfini e delle balene, aprendo nuove possibilità di comunicazione e conoscenza del mondo animale.