Immagine AI

Gnani.ai ha presentato Prisma v2.5, un modello speech-to-text progettato per trascrivere conversazioni in lingue indiane in condizioni operative molto diverse dall’audio pulito usato nei benchmark di laboratorio. Il punto centrale del sistema è la capacità di lavorare su registrazioni telefoniche reali, dove accenti regionali, rumore ambientale, sovrapposizione tra parlanti, variazioni dialettali e passaggi spontanei tra più lingue rendono il riconoscimento vocale molto più complesso rispetto a una semplice dettatura.

Il modello è stato addestrato su oltre 14 milioni di ore di audio telefonico e punta a ridurre il word error rate nelle conversazioni enterprise, soprattutto nei settori in cui la trascrizione non è un servizio accessorio ma una parte del processo operativo. Nei call center, nel banking, nella sanità, nelle assicurazioni e nei servizi pubblici, una parola riconosciuta in modo errato può modificare il significato di una richiesta, generare errori nei workflow automatici o compromettere la corretta classificazione di una pratica.

Prisma v2.5 è stato pensato in particolare per il contesto linguistico indiano, dove il riconoscimento vocale deve gestire molte lingue, pronunce locali e frequenti forme di code-switching. Secondo i dati comunicati dall’azienda, il modello ottiene il primo posto in otto lingue indiane su nove nei benchmark con audio rumoroso a 8 kHz, una condizione rilevante perché vicina alla qualità delle comunicazioni telefoniche reali. Gnani.ai indica inoltre una riduzione del word error rate del 15% per l’hindi rurale e del 18% per le lingue dravidiche in scenari rumorosi.

L’approccio è diverso da quello dei modelli vocali generalisti adattati a posteriori a lingue locali. Prisma v2.5 nasce come componente specializzato per il riconoscimento automatico del parlato in ambienti enterprise, con attenzione alla robustezza acustica, alla comprensione di termini di dominio e alla stabilità su conversazioni brevi, frammentate o poco pulite. Questo aspetto è particolarmente importante nelle interazioni telefoniche, dove molte risposte decisive sono costituite da poche parole, numeri, nomi, conferme o negazioni.

La direzione tecnica è quella di una voice AI più locale, più controllabile e più vicina ai dati reali di produzione. Non si tratta soltanto di trascrivere una frase, ma di trasformare il parlato in un input affidabile per sistemi di automazione, analisi conversazionale, verifica identità, assistenza clienti e agenti vocali. In questo senso, Prisma v2.5 mostra come la qualità dei modelli speech-to-text dipenda sempre meno dalla sola ampiezza generale del modello e sempre più dalla qualità dei dati vocali, dalla copertura linguistica effettiva e dalla capacità di operare nelle condizioni imperfette in cui avvengono le conversazioni reali.

Di Fantasy