I ricercatori di Alibaba hanno presentato FunAudioLLM, un quadro innovativo progettato per facilitare interazioni vocali naturali tra esseri umani e modelli linguistici di grandi dimensioni (LLM). Il sistema comprende due componenti chiave: SenseVoice per la comprensione vocale e CosyVoice per la generazione di voce.
SenseVoice
- Disponibile nelle varianti Small e Large.
- Eccelle nel riconoscimento vocale multilingue, nel riconoscimento delle emozioni e nel rilevamento di eventi audio.
- SenseVoice-Small offre un riconoscimento vocale automatico (ASR) a bassa latenza per cinque lingue.
- SenseVoice-Large supporta un ASR ad alta precisione per oltre 50 lingue.
CosyVoice
Specializzata nella generazione di voce multilingue.
- Supporta l’apprendimento in-context zero-shot, la clonazione vocale crosslingue e le capacità di seguire istruzioni.
- Supporta cinque lingue: cinese, inglese, giapponese, cantonese e coreano.
L’integrazione di questi modelli con LLM consente varie applicazioni, tra cui la traduzione vocale, la chat vocale emotiva, i podcast interattivi e la narrazione espressiva di audiolibri. I risultati sperimentali mostrano che SenseVoice supera i modelli esistenti come Whisper in molti benchmark, con SenseVoice-Small che è più di cinque volte più veloce di Whisper-small e più di quindici volte più veloce di Whisper-large per le attività di riconoscimento vocale(.
CosyVoice dimostra una sintesi vocale di alta qualità, ottenendo prestazioni comparabili o migliori rispetto alle espressioni originali in termini di coerenza dei contenuti e somiglianza degli altoparlanti. I ricercatori hanno reso open-source i modelli relativi a SenseVoice e CosyVoice su Modelscope e Huggingface, insieme ai codici di allenamento, inferenza e messa a punto su GitHub.
Nonostante i risultati promettenti, i ricercatori riconoscono alcune limitazioni, tra cui prestazioni inferiori per le lingue con risorse insufficienti, la mancanza di capacità di trascrizione in streaming e la necessità di migliorare i cambiamenti emotivi espressivi mantenendo il timbro vocale originale.
Questo nuovo sviluppo rappresenta un significativo passo avanti per Alibaba nell’espansione dei suoi modelli creativi, aggiungendosi al generatore di immagini Tongyi, che ha sfidato Midjourney e DALL-E.