NVIDIA ha recentemente presentato due modelli di linguaggio parlato all’avanguardia: Canary-Qwen-2.5B e Audio Flamingo 3. Questi modelli rappresentano un significativo passo avanti nell’elaborazione del linguaggio naturale e nell’interpretazione dell’audio, offrendo prestazioni superiori rispetto ai sistemi precedenti.

NVIDIA ha rilasciato Canary-Qwen-2.5B, un modello di intelligenza artificiale che integra il riconoscimento vocale automatico (ASR) e un modello linguistico di grandi dimensioni (LLM) in un’unica architettura. Questa combinazione consente al modello di trascrivere il parlato e comprendere il linguaggio in tempo reale, superando le limitazioni dei metodi esistenti.

Canary-Qwen-2.5B è composto da due componenti principali:

  • FastConformer Encoder: un codificatore vocale ad alta velocità progettato per il riconoscimento vocale efficiente.
  • Qwen3-1.7B Decoder: un modello linguistico di grandi dimensioni pre-addestrato che interpreta le trascrizioni vocali.

Questa architettura consente al modello di operare in due modalità:

  • Modalità ASR: trascrive il parlato in testo.
  • Modalità LLM: elabora il testo trascritto per attività come riassunti o risposte a domande.

Nonostante la sua dimensione contenuta di 2,5 miliardi di parametri, Canary-Qwen-2.5B ha raggiunto un tasso di errore nelle parole (WER) del 5,63%, il più basso mai registrato sulla classifica OpenASR di Hugging Face, e una velocità di elaborazione di 418 volte superiore al tempo reale (RTFx=418) su GPU NVIDIA A100.

Questo modello è stato addestrato utilizzando 234.000 ore di dati vocali in inglese e può essere scaricato gratuitamente da Hugging Face per uso commerciale. È compatibile con diverse GPU, tra cui le serie NVIDIA A100, H100 e RTX 5090, e può essere utilizzato con il toolkit NVIDIA NeMo.

NVIDIA ha presentato anche Audio Flamingo 3 (AF3), un modello di linguaggio audio completamente open-source che migliora la comprensione e il ragionamento su parlato, suoni e musica. AF3 introduce diverse innovazioni significative:

  • AF-Whisper Encoder: un codificatore audio unificato basato su Whisper-v3, progettato per rappresentare in modo congiunto parlato, suoni e musica.
  • Qwen2.5-7B Decoder: un modello linguistico di grandi dimensioni che interpreta le rappresentazioni audio.
  • AF3-Chat: una modalità di interazione vocale a più turni che consente conversazioni naturali.

AF3 è in grado di comprendere e ragionare su segmenti audio fino a 10 minuti di durata, gestire conversazioni vocali complesse e rispondere a domande su contenuti audio, inclusi podcast, riunioni e musica.

Il modello è stato addestrato utilizzando dataset open-source come AudioSkills-XL, LongAudio-XL, AF-Think e AF-Chat, che comprendono milioni di esempi di domande e risposte audio. AF3 ha raggiunto risultati all’avanguardia su oltre 20 benchmark di comprensione e ragionamento audio, superando modelli precedenti sia open-source che closed-source.

AF3 è disponibile gratuitamente per uso non commerciale su Hugging Face e GitHub. È compatibile con GPU NVIDIA e può essere integrato in applicazioni di ricerca e sviluppo.

Di Fantasy