La scorsa settimana, OpenAI ha rilasciato Whisper , un modello di deep learning open source per il riconoscimento vocale. I test di OpenAI su Whisper mostrano risultati promettenti nella trascrizione dell’audio non solo in inglese, ma anche in diverse altre lingue.
Anche sviluppatori e ricercatori che hanno sperimentato Whisper sono rimasti colpiti da ciò che il modello può fare. Tuttavia, ciò che forse è ugualmente importante è ciò che il comunicato di Whisper ci dice sulla cultura mutevole nella ricerca sull’intelligenza artificiale (AI) e sul tipo di applicazioni che possiamo aspettarci in futuro.
Sfruttare i dati e l’intelligenza artificiale per guidare l’azione nella tua organizzazione
Un ritorno all’apertura?
OpenAI è stato molto criticato per non aver reso open source i suoi modelli. GPT-3 e DALL-E, due dei modelli di deep learning più impressionanti di OpenAI, sono disponibili solo dietro i servizi API a pagamento e non c’è modo di scaricarli ed esaminarli.
Al contrario, Whisper è stato rilasciato come modello open source preaddestrato che tutti possono scaricare ed eseguire su una piattaforma informatica a loro scelta. Quest’ultimo sviluppo arriva quando negli ultimi mesi si è assistito a una tendenza verso una maggiore apertura tra i laboratori di ricerca sull’IA commerciale.
A maggio, Meta ha reso open source OPT-175B , un Large Language Model (LLM) che corrisponde alle dimensioni di GPT-3. A luglio, Hugging Face ha rilasciato BLOOM , un altro LLM open source di scala GPT-3. E ad agosto, Stability.ai ha rilasciato Stable Diffusion , un modello di generazione di immagini open source che rivaleggia con DALL-E di OpenAI.
I modelli open source possono aprire nuove finestre per eseguire ricerche sui modelli di deep learning e aiutare a creare applicazioni specializzate.
Whisper di OpenAI abbraccia la diversità dei dati
Una delle caratteristiche importanti di Whisper è la diversità dei dati utilizzati per addestrarlo. Whisper è stato formato su 680.000 ore di dati multilingue e multitasking raccolti dal web. Un terzo dei dati di addestramento è composto da esempi audio non in inglese.
“Whisper può trascrivere in modo robusto il parlato inglese ed esibirsi a un livello all’avanguardia con circa 10 lingue, oltre a tradurre da quelle lingue in inglese”, ha detto a VentureBeat un portavoce di OpenAI in commenti scritti.
Sebbene l’analisi del laboratorio di lingue diverse dall’inglese non sia completa, gli utenti che l’hanno testata riportano risultati solidi.
Ancora una volta, la diversità dei dati è diventata una tendenza popolare nella comunità di ricerca sull’IA. BLOOM, rilasciato quest’anno, è stato il primo modello linguistico a supportare 59 lingue. E Meta sta lavorando a un modello che supporta la traduzione in 200 lingue .
Il passaggio a più dati e diversità linguistica assicurerà che più persone possano accedere e beneficiare dei progressi nell’apprendimento profondo.
Esegui il tuo modello
Poiché Whisper è open source, gli sviluppatori e gli utenti possono scegliere di eseguirlo sulla piattaforma di calcolo di loro scelta, che si tratti del loro laptop, workstation desktop, dispositivo mobile o server cloud. OpenAI ha rilasciato cinque diverse dimensioni di Whisper, ciascuna scambiata proporzionalmente tra precisione e velocità, con il modello più piccolo che è circa 60 volte più veloce del più grande.
“Dato che la trascrizione che utilizza il modello Whisper più grande funziona più velocemente del tempo reale su un [Nvidia] A100 [GPU], prevedo che ci siano casi d’uso pratici per eseguire modelli più piccoli su sistemi mobili o desktop, una volta che i modelli sono stati portati correttamente nei rispettivi ambienti ”, ha affermato il portavoce di OpenAI. “Ciò consentirebbe agli utenti di eseguire il riconoscimento vocale automatico (ASR) senza i problemi di privacy legati al caricamento dei dati vocali sul cloud, mentre potrebbe consumare più batteria e avere una maggiore latenza rispetto alle soluzioni ASR alternative”.
Gli sviluppatori che hanno provato Whisper sono soddisfatti delle opportunità che può offrire. E può porre sfide ai servizi ASR basati su cloud che sono stati l’opzione principale fino ad ora.
“A prima vista, Whisper sembra essere molto meglio di altri prodotti SaaS [software-as-a-service] in termini di precisione”, ha detto a VentureBeat l’esperto di MLops Noah Gift. “Dato che è gratuito e programmabile, molto probabilmente significa una sfida molto significativa per i servizi che offrono solo la trascrizione”.
Gift ha eseguito il modello sul suo computer per trascrivere centinaia di file MP4 che vanno da 10 minuti a ore. Per le macchine con GPU Nvidia, potrebbe essere molto più conveniente eseguire il modello localmente e sincronizzare i risultati sul cloud, afferma Gift.
“Molti creatori di contenuti che hanno una certa esperienza di programmazione che inizialmente non utilizzavano i servizi di trascrizione a causa dei costi adotteranno immediatamente Whisper nel loro flusso di lavoro”, ha affermato Gift.
Gift ora usa Whisper per automatizzare la trascrizione nel suo flusso di lavoro. E con la trascrizione automatizzata, ha la possibilità di utilizzare altri modelli linguistici open source, come i riassunti di testo.
“I creatori di contenuti dagli indie ai principali studi cinematografici possono utilizzare questa tecnologia e ha la possibilità di essere uno degli strumenti in un punto di svolta nell’aggiunta dell’IA ai nostri flussi di lavoro quotidiani”, ha affermato Gift. “Rendendo la trascrizione una merce, ora la vera rivoluzione dell’IA può iniziare per coloro che si trovano nello spazio dei contenuti, dagli YouTuber, alle notizie, ai lungometraggi (tutti i settori in cui ho lavorato professionalmente).”
Crea le tue applicazioni
Esistono già diverse iniziative per rendere Whisper più facile da usare per le persone che non hanno le competenze tecniche per configurare ed eseguire modelli di machine learning. Un esempio è un progetto congiunto del giornalista Peter Sterne e dell’ingegnere GitHub Christina Warren per creare un'”app di trascrizione gratuita, sicura e facile da usare per i giornalisti” basata su Whisper.
Nel frattempo, i modelli open source come Whisper aprono nuove possibilità nel cloud. Gli sviluppatori utilizzano piattaforme come Hugging Face per ospitare Whisper e renderlo disponibile tramite chiamate API.
“Un’azienda impiega 10 minuti per creare il proprio servizio di trascrizione basato su Whisper e iniziare a trascrivere chiamate o contenuti audio anche su larga scala”, ha detto a VentureBeat Jeff Boudier, responsabile della crescita e dei prodotti di Hugging Face.
Esistono già diversi servizi basati su Whisper su Hugging Face, inclusa un’app di trascrizione di YouTube .
O perfeziona le applicazioni esistenti per i tuoi scopi
E un altro vantaggio dei modelli open source come Whisper è la messa a punto: il processo di acquisizione di un modello preaddestrato e ottimizzazione per una nuova applicazione. Ad esempio, Whisper può essere messo a punto per migliorare le prestazioni ASR in un linguaggio che non è ben supportato nel modello attuale. Oppure può essere messo a punto per riconoscere meglio i termini medici o tecnici. Un’altra direzione interessante potrebbe essere quella di mettere a punto il modello per altre attività oltre all’ASR, come la verifica degli altoparlanti, il rilevamento di eventi sonori e l’individuazione di parole chiave.
“Potrebbe essere affascinante vedere dove va a finire”, ha detto Gift. “Per i verticali molto tecnici, una versione perfezionata potrebbe essere un punto di svolta nel modo in cui sono in grado di comunicare informazioni tecniche. Ad esempio, questo potrebbe essere l’inizio di una rivoluzione nella medicina poiché i medici di base potrebbero avere il loro dialogo registrato e quindi automatizzato in sistemi di intelligenza artificiale che diagnosticano i pazienti?
“Abbiamo già ricevuto feedback sul fatto che puoi utilizzare Whisper come servizio plug-and-play per ottenere risultati migliori rispetto a prima”, ha detto a VentureBeat Philipp Schmid, responsabile tecnico di Hugging Face. “La combinazione di questo con la messa a punto del modello aiuterà a migliorare ulteriormente le prestazioni. Particolarmente la messa a punto per le lingue che non erano ben rappresentate nel set di dati di pre-formazione può migliorare significativamente le prestazioni”.