I ricercatori di Alibaba hanno presentato FunAudioLLM, un quadro innovativo progettato per facilitare interazioni vocali naturali tra esseri umani e modelli linguistici di grandi dimensioni (LLM). Il sistema comprende due componenti chiave: SenseVoice per la comprensione vocale e CosyVoice per la generazione di voce​.

SenseVoice

  • Disponibile nelle varianti Small e Large.
  • Eccelle nel riconoscimento vocale multilingue, nel riconoscimento delle emozioni e nel rilevamento di eventi audio.
  • SenseVoice-Small offre un riconoscimento vocale automatico (ASR) a bassa latenza per cinque lingue.
  • SenseVoice-Large supporta un ASR ad alta precisione per oltre 50 lingue.
    CosyVoice

Specializzata nella generazione di voce multilingue.

  • Supporta l’apprendimento in-context zero-shot, la clonazione vocale crosslingue e le capacità di seguire istruzioni.
  • Supporta cinque lingue: cinese, inglese, giapponese, cantonese e coreano​.

L’integrazione di questi modelli con LLM consente varie applicazioni, tra cui la traduzione vocale, la chat vocale emotiva, i podcast interattivi e la narrazione espressiva di audiolibri. I risultati sperimentali mostrano che SenseVoice supera i modelli esistenti come Whisper in molti benchmark, con SenseVoice-Small che è più di cinque volte più veloce di Whisper-small e più di quindici volte più veloce di Whisper-large per le attività di riconoscimento vocale​(.

CosyVoice dimostra una sintesi vocale di alta qualità, ottenendo prestazioni comparabili o migliori rispetto alle espressioni originali in termini di coerenza dei contenuti e somiglianza degli altoparlanti. I ricercatori hanno reso open-source i modelli relativi a SenseVoice e CosyVoice su Modelscope e Huggingface, insieme ai codici di allenamento, inferenza e messa a punto su GitHub​.

Nonostante i risultati promettenti, i ricercatori riconoscono alcune limitazioni, tra cui prestazioni inferiori per le lingue con risorse insufficienti, la mancanza di capacità di trascrizione in streaming e la necessità di migliorare i cambiamenti emotivi espressivi mantenendo il timbro vocale originale​​.

Questo nuovo sviluppo rappresenta un significativo passo avanti per Alibaba nell’espansione dei suoi modelli creativi, aggiungendosi al generatore di immagini Tongyi, che ha sfidato Midjourney e DALL-E​.

Di Fantasy