Alibaba Q12-Audio, il nuovo modello linguistico audio che combina LLM e tecnologia AI Open Source

Alibaba ha introdotto un innovativo modello di linguaggio audio chiamato “Q12-Audio”, che unisce il riconoscimento vocale di alta qualità con la potenza del modello linguistico dell’azienda. Questo nuovo modello combina la tecnologia open source “Whisper” di OpenAI, rinomata per il suo eccellente riconoscimento vocale, con il modello linguistico “Qwen2” di Alibaba.

Mark Tech Post ha riportato che il team Qwen di Alibaba ha lanciato “Qwen2-Audio”, un modello capace di gestire audio complessi con alta precisione e interazioni avanzate. Questo sviluppo sottolinea l’importanza di modelli vocali capaci di comprendere e rispondere efficacemente alla voce umana, come dimostrano i modelli “GPT-4o” di OpenAI e “Progetto Astra” di Google.

Il modello ha affrontato una serie di sfide, in particolare nella fase di pre-addestramento. Precedentemente, i modelli utilizzavano un metodo complesso chiamato “sistemi di tagging gerarchico”, che presentava difficoltà nel gestire voci multiple simultaneamente e la presenza di suoni ambientali o musica.

Per superare questi problemi, i ricercatori di Alibaba hanno adottato un approccio basato su suggerimenti in linguaggio naturale anziché tag gerarchici. Questo cambiamento ha semplificato l’apprendimento del dizionario e migliorato la funzione di istruzione. Il modello “Qwen2-Audio” integra un codificatore audio avanzato e il modello linguistico di grandi dimensioni “Q1 2 7B”, risultando in una combinazione con il modello “Whisper-Large-v3”.

Nei test di benchmarking, Q12-Audio ha mostrato prestazioni superiori rispetto ai modelli precedenti in vari ambiti, tra cui:

Riconoscimento vocale automatico (ASR)
Sintesi vocale (S2TT)
Riconoscimento delle emozioni vocali (SER)

Particolarmente notevole è la precisione del 93,92% raggiunta nel compito di Vocal Sound Classification (VSC), superando modelli precedenti come “Gemini 1.5 Pro” nei test audio.

I ricercatori hanno evidenziato che Q12-Audio supera i limiti dei modelli precedenti, stabilendo nuovi standard per l’interazione audio. La capacità del modello di gestire vari compiti senza necessità di un’ulteriore messa a punto specifica promette di rivoluzionare l’elaborazione e l’interazione con i segnali audio.

Q12-Audio è stato rilasciato come open source, offrendo così ampie opportunità per l’adozione e l’innovazione. Questo lancio segue il rilascio di “Qwen 2” e il recente annuncio di “Qwen2-Math”, un modello linguistico dedicato alla matematica con eccellenti prestazioni.

Alibaba Q12-Audio, il nuovo modello linguistico audio che combina LLM e tecnologia AI Open Source

DiFantasy

Di Fantasy

Articoli correlati

Google lancia Veo 3.1 Lite, un modello video AI più economico dopo la chiusura di Sora

Enabot EBO Max: il robot domestico con AI che osserva, impara e assiste la famiglia

La divulgazione del codice di Claude Code causata da errore manuale

Ultimi Post

Google lancia Veo 3.1 Lite, un modello video AI più economico dopo la chiusura di Sora

Enabot EBO Max: il robot domestico con AI che osserva, impara e assiste la famiglia

La divulgazione del codice di Claude Code causata da errore manuale

Ray-Ban Meta Blazer Optics e Scriber Optics: Meta lancia nuovi occhiali AI compatibili con lenti da vista