OpenAI Open-Sources ‘Whisper’: un sistema di riconoscimento vocale multilingue
I modelli open source e il codice di inferenza dell’azienda fungono da base per la creazione di applicazioni utili e promuovono ulteriori ricerche sull’elaborazione vocale robusta.
 
Il riconoscimento vocale rimane una sfida nell’IA. Tuttavia, OpenAI si è appena avvicinato di un passo alla risoluzione del problema. In un post sul blog la scorsa settimana, OpenAI ha introdotto Whisper , un sistema di riconoscimento vocale automatico multilingue addestrato e open source per avvicinarsi alla robustezza e alla precisione a livello umano sul riconoscimento vocale inglese. 

Numerose organizzazioni come Google , Meta e Amazon hanno sviluppato sistemi di riconoscimento vocale altamente capaci. Ma OpenAI afferma che Whisper si distingue. Il modello è formato su 680.000 ore di dati supervisionati multilingue e multitasking raccolti dal web. Sostiene di avere un migliore riconoscimento del rumore di fondo , accenti unici e gergo tecnico grazie all’uso di un set di dati così ampio e diversificato. 

 
I modelli open source e il codice di inferenza dell’azienda fungono da base per la creazione di applicazioni utili e promuovono ulteriori ricerche sull’elaborazione vocale robusta.

  

Un estratto dal blog recita: “L’architettura Whisper è un semplice approccio end-to-end, implementato come trasformatore codificatore-decodificatore. L’audio in ingresso viene suddiviso in blocchi di 30 secondi, convertito in uno spettrogramma log-Mel e quindi passato a un codificatore. Un decodificatore è addestrato per prevedere la didascalia di testo corrispondente, mescolata con token speciali che indirizzano il singolo modello a eseguire attività come l’identificazione della lingua, timestamp a livello di frase, trascrizione vocale multilingue e traduzione vocale in inglese.

L’azienda afferma che altri approcci esistenti utilizzano spesso set di dati di addestramento audio-testo più piccoli e più strettamente accoppiati o un pre-addestramento audio ampio ma non supervisionato. Poiché Whisper è stato addestrato su un set di dati ampio e diversificato (circa un terzo dei quali è un set di dati audio non inglese) senza essere messo a punto su uno specifico, non batte i modelli specializzati nelle prestazioni di LibriSpeech . 

Una volta misurati, i risultati mostrano che le prestazioni zero-shot di Whisper su molti set di dati diversi sono solide, realizzando il 50% di errori in meno rispetto ad altri modelli. OpenAI spera che la facilità d’uso e l’elevata precisione del modello consentiranno agli sviluppatori di aggiungere interfacce vocali a un insieme più ampio di applicazioni. 

Di ihal