Immagine AI

NVIDIA ha recentemente lanciato Parakeet-TDT-0.6B-v2, un modello di riconoscimento automatico del parlato (ASR) completamente open source, disponibile su Hugging Face. Questa versione avanzata del modello Parakeet promette prestazioni eccezionali nella trascrizione audio, con un tasso di errore delle parole (WER) medio del 6,05%, posizionandosi al vertice della classifica Open ASR di Hugging Face.

Parakeet-TDT-0.6B-v2 è un modello con 600 milioni di parametri, che combina l’encoder FastConformer con l’architettura TDT decoder. Grazie a questa combinazione, il modello è in grado di trascrivere un’ora di audio in appena un secondo, a condizione che venga eseguito su hardware accelerato da GPU NVIDIA. Questo risultato è stato ottenuto con un fattore di tempo reale (RTF) di 3386,02, utilizzando una dimensione del batch di 128.

Rilasciato globalmente il 1° maggio 2025, Parakeet-TDT-0.6B-v2 è destinato a sviluppatori, ricercatori e team industriali che costruiscono applicazioni come servizi di trascrizione, assistenti vocali, generatori di sottotitoli e piattaforme di intelligenza artificiale conversazionale. Il modello supporta punteggiatura, maiuscole e timestamp dettagliati a livello di parola, offrendo un pacchetto completo per le esigenze di trascrizione audio.

Gli sviluppatori possono utilizzare il modello tramite l’uso del toolkit NeMo di NVIDIA, compatibile con Python e PyTorch. Il modello può essere utilizzato direttamente o ulteriormente affinato per compiti specifici. La licenza open source (CC-BY-4.0) consente l’uso commerciale, rendendolo attraente per startup e imprese.

Parakeet-TDT-0.6B-v2 è stato addestrato su un ampio e diversificato corpus chiamato Granary, che include circa 120.000 ore di audio in inglese, composte da 10.000 ore di dati trascritti da esseri umani e 110.000 ore di audio pseudo-etichettato. Le fonti variano da dataset noti come LibriSpeech e Mozilla Common Voice a YouTube-Commons e Librilight. NVIDIA prevede di rendere disponibile pubblicamente il dataset Granary dopo la sua presentazione a Interspeech 2025.

Il modello è stato valutato su più benchmark ASR in lingua inglese, tra cui AMI, Earnings22, GigaSpeech e SPGISpeech, mostrando solide prestazioni di generalizzazione. Rimane robusto in condizioni di rumore variabili e offre buone prestazioni anche con formati audio in stile telefonico, con solo una modesta degradazione a bassi rapporti segnale/rumore.

NVIDIA sottolinea che il modello è stato sviluppato senza l’uso di dati personali e aderisce al proprio framework di intelligenza artificiale responsabile. Sebbene non siano state adottate misure specifiche per mitigare i pregiudizi demografici, il modello ha superato gli standard di qualità interni e include documentazione dettagliata sul processo di addestramento, la provenienza del dataset e la conformità alla privacy.

Di Fantasy