Gli esseri umani possiedono funzioni sensoriali uniche come l’udito binaurale, che consente loro di identificare tipi di suono, la loro direzione e distanza, e di distinguere tra molteplici fonti sonore simultanee. Mentre i modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli nel fornire risposte audio e nel riconoscere il parlato, la traduzione e la sintesi, stanno ancora affrontando la sfida di gestire input audio spaziali in ambienti reali.
Un gruppo di ricercatori ha introdotto BAT, descritto come il primo LLM spaziale basato sull’audio, in grado di elaborare suoni in ambienti 3D. Il modello ha mostrato notevole precisione nella classificazione dei tipi di audio, nella determinazione della direzione e della distanza del suono e ha eccellenti capacità di ragionamento spaziale, anche in situazioni con sovrapposizioni di suoni.
L’audio spaziale, noto anche come “suono surround virtuale”, crea l’illusione di sorgenti sonore in uno spazio tridimensionale e viene utilizzato in realtà virtuale, sistemi teatrali avanzati e altri ambiti emergenti come il metaverso. Tuttavia, rappresenta una sfida per l’intelligenza artificiale e l’apprendimento automatico, poiché gli agenti intelligenti in ambienti 3D trovano difficoltà a localizzare e interpretare le fonti sonore.
Per affrontare questi problemi, sono stati sviluppati vari modelli e tecniche, come la simulazione acustica e algoritmi che incorporano informazioni audio spaziali, ma spesso mancano di precisione e affidabilità. Altre applicazioni nel dominio audio includono AudioGPT, LTU e Qwen-audio, ma nessuno di questi modelli è in grado di percepire e ragionare sull’audio spaziale in ambienti 3D complessi.
BAT, invece, ha dimostrato capacità avanzate di ragionamento spaziale, raggiungendo un’elevata precisione nella classificazione dei suoni e fornendo risposte accurate su tipo, direzione, distanza e relazioni spaziali tra suoni. I ricercatori dell’Università del Texas, degli Stati Uniti e dell’Università Jiao Tong di Shanghai in Cina hanno sviluppato BAT integrando un trasformatore di spettrogramma audio spaziale (SPATIAL-AST) e un insieme di attività di risposta a domande spaziali (SPATIALSOUNDQA) con LLaMA-2 LLM.
Per migliorare la precisione, i ricercatori hanno utilizzato un set di dati binaurali e si sono affidati al set di dati RGB-D su larga scala Matterport3D per le loro simulazioni ambientali. Le domande poste al modello includevano identificazione di eventi sonori, direzione, distanza e ragionamento spaziale.
La ricerca suggerisce che lo sviluppo di LLM per l’audio spaziale potrebbe portare a esperienze più coinvolgenti e realistiche in realtà virtuale, giochi, ingegneria audio e oltre. La capacità di interpretare e ragionare sui suoni spaziali potrebbe anche migliorare i sistemi di intelligenza artificiale incorporati come robot o veicoli autonomi. I ricercatori si aspettano che BAT contribuisca significativamente allo sviluppo della percezione e del ragionamento audio spaziale, nonché agli LLM multimodali.