Alla scoperta di SALMONN, l’AI che comprende suoni, parole e musica

Gli esperti della Tsinghua University in collaborazione con ByteDance hanno creato SALMONN, un avanzato sistema di intelligenza artificiale capace di interpretare e riflettere su input audio come discorsi, suoni e melodie.

Secondo un articolo di ricerca diffuso su arXiv, SALMONN è descritto come “un potente modello linguistico (LLM) che integra input vocali, suoni e musica”. Questo sistema fonde due IA specifiche: una dedicata all’analisi vocale e l’altra all’audio in generale, dando vita a un LLM unico che può fornire risposte scritte basate sugli input audio.

Al contrario degli input puramente vocali o sonori, SALMONN è progettato per captare e interpretare vari tipi di input audio. Questo amplia le sue capacità, consentendogli di riconoscere la voce, tradurre in diverse lingue e analizzare un mix di suoni e parole, come se fornisse al LLM la capacità di “ascoltare” e “riflettere”.

Le performance di SALMONN sono state messe alla prova con diversi tipi di audio, dai discorsi ai rumori, come il verso delle anatre e le melodie musicali. Ad ogni stimolo audio, il sistema ha prodotto risposte scritte pertinenti, mostrando di capire realmente l’input fornito.

L’articolo chiarisce che un semplice comando scritto può guidare SALMONN a rispondere a domande legate a vari input audio, evidenziando un notevole progresso rispetto ai comuni sistemi IA focalizzati esclusivamente sulla trascrizione.

A differenza delle classiche funzioni di riconoscimento vocale o sottotitolazione, SALMONN utilizza la vasta conoscenza e l’intelletto del LLM per una percezione audio più sofisticata, migliorando la sua versatilità e profondità.

Gli studiosi indicano che SALMONN possiede capacità intermodali, come l’interpretazione di comandi vocali, senza aver avuto un addestramento specifico in questo.

Tuttavia, nonostante le sue innovative capacità, gli autori ammettono che ci sono margini di miglioramento nel ragionamento profondo del sistema. Ma sono positivi riguardo al suo futuro, immaginando un’intelligenza artificiale che possa “ascoltare” così come “vedere”.

Questo progresso potrebbe inaugurare un’era rivoluzionaria per l’analisi dei dati, offrendo alle aziende strumenti vocali al posto di quelli basati sul testo, cambiando radicalmente la gestione e interpretazione dei dati.

Gli interessati possono sperimentare SALMONN attraverso una demo online e il modello è anche accessibile su Hugging Face, piattaforma popolare per la condivisione di modelli di machine learning.

Con l’emergere di SALMONN, si apre una nuova prospettiva nel panorama dell’intelligenza artificiale, evidenziando l’innovazione di ByteDance e della Tsinghua University. Mentre l’IA continua a evolversi, offrendo non solo capacità visive ma anche auditive, le conseguenze per imprese e utenti sono immense.

Alla scoperta di SALMONN, l’AI che comprende suoni, parole e musica

DiFantasy

Di Fantasy

Articoli correlati

Rendering neurale: arriva NVIDIA DiffusionRenderer per video realistici

Salesforce presenta GTA1, agente GUI che supera OpenAI CUA nei benchmark

Meta acquisisce PlayAI per potenziare l’AI vocale nel suo Superintelligence Lab

You missed

Rendering neurale: arriva NVIDIA DiffusionRenderer per video realistici

Salesforce presenta GTA1, agente GUI che supera OpenAI CUA nei benchmark

Meta acquisisce PlayAI per potenziare l’AI vocale nel suo Superintelligence Lab

Anthropic propone un quadro di trasparenza per l’AI avanzata tra sicurezza, responsabilità e flessibilità