Durante il suo primo Developer Day, OpenAI, la società di intelligenza artificiale, ha svelato una suite di modelli gratuiti e open source. Tra questi, spicca una versione rivista del loro software di riconoscimento vocale automatizzato chiamato Whisper large-v3. L’obiettivo di OpenAI è rendere finalmente accessibile al pubblico l’API di questo modello.
La pagina ufficiale afferma che i modelli ‘tiny.en’ e ‘base.en’, progettati per applicazioni in lingua inglese, hanno dimostrato la migliore precisione. Tuttavia, è importante notare che la precisione del modello varia notevolmente a seconda della lingua considerata.
Il modello di rete neurale Whisper è stato originariamente introdotto nel settembre dell’anno scorso, con un focus principale sulla lingua inglese. Successivamente, a dicembre, è stata rilasciata una versione 2 con funzionalità multilingue migliorate, sebbene le lingue specificamente supportate non fossero state specificate.
Whisper large-v3 è ora disponibile su GitHub con una licenza open source ed è stato elogiato come uno dei migliori strumenti di trascrizione grazie alla sua velocità e precisione nella conversione di una vasta gamma di materiali audio in testo. Può essere utilizzato, ad esempio, per aggiungere sottotitoli ai video su piattaforme come YouTube e include anche una funzione di timestamp.
Il processo di trascrizione inizia suddividendo l’audio in blocchi di 30 secondi, successivamente trascodificandoli e inviandoli attraverso un codificatore e un decodificatore, che generano il testo corrispondente. Riconoscere diverse lingue, consentire la trascrizione vocale multilingue e la traduzione in inglese sono tutte sfide tecniche affrontate da questo strumento.
Inizialmente, l’idea era che il modello Whisper lavorasse in sinergia con ChatGPT, consentendo agli utenti di condurre conversazioni fluide con il chatbot. Tuttavia, OpenAI ha poi deciso di rendere il modello disponibile al pubblico senza ulteriori indugi. È interessante notare che Whisper è ora principalmente rivolto ai ricercatori anziché agli utenti finali.
L’obiettivo principale dietro la condivisione in open source è quello di “servire come base per la creazione di applicazioni utili e per ulteriori ricerche sull’elaborazione vocale efficace”, come dichiarato da OpenAI. Il modello AI di OpenAI è stato allenato utilizzando un vasto set di dati di 680.000 ore di dati supervisionati, provenienti da fonti su Internet, con un terzo del dataset proveniente da lingue diverse dall’inglese.