Alibaba ha introdotto un innovativo modello di linguaggio audio chiamato “Q12-Audio”, che unisce il riconoscimento vocale di alta qualità con la potenza del modello linguistico dell’azienda. Questo nuovo modello combina la tecnologia open source “Whisper” di OpenAI, rinomata per il suo eccellente riconoscimento vocale, con il modello linguistico “Qwen2” di Alibaba.
Mark Tech Post ha riportato che il team Qwen di Alibaba ha lanciato “Qwen2-Audio”, un modello capace di gestire audio complessi con alta precisione e interazioni avanzate. Questo sviluppo sottolinea l’importanza di modelli vocali capaci di comprendere e rispondere efficacemente alla voce umana, come dimostrano i modelli “GPT-4o” di OpenAI e “Progetto Astra” di Google.
Il modello ha affrontato una serie di sfide, in particolare nella fase di pre-addestramento. Precedentemente, i modelli utilizzavano un metodo complesso chiamato “sistemi di tagging gerarchico”, che presentava difficoltà nel gestire voci multiple simultaneamente e la presenza di suoni ambientali o musica.
Per superare questi problemi, i ricercatori di Alibaba hanno adottato un approccio basato su suggerimenti in linguaggio naturale anziché tag gerarchici. Questo cambiamento ha semplificato l’apprendimento del dizionario e migliorato la funzione di istruzione. Il modello “Qwen2-Audio” integra un codificatore audio avanzato e il modello linguistico di grandi dimensioni “Q1 2 7B”, risultando in una combinazione con il modello “Whisper-Large-v3”.
Nei test di benchmarking, Q12-Audio ha mostrato prestazioni superiori rispetto ai modelli precedenti in vari ambiti, tra cui:
- Riconoscimento vocale automatico (ASR)
- Sintesi vocale (S2TT)
- Riconoscimento delle emozioni vocali (SER)
Particolarmente notevole è la precisione del 93,92% raggiunta nel compito di Vocal Sound Classification (VSC), superando modelli precedenti come “Gemini 1.5 Pro” nei test audio.
I ricercatori hanno evidenziato che Q12-Audio supera i limiti dei modelli precedenti, stabilendo nuovi standard per l’interazione audio. La capacità del modello di gestire vari compiti senza necessità di un’ulteriore messa a punto specifica promette di rivoluzionare l’elaborazione e l’interazione con i segnali audio.
Q12-Audio è stato rilasciato come open source, offrendo così ampie opportunità per l’adozione e l’innovazione. Questo lancio segue il rilascio di “Qwen 2” e il recente annuncio di “Qwen2-Math”, un modello linguistico dedicato alla matematica con eccellenti prestazioni.