Oggi, la startup aiOla ha annunciato un nuovo modello di riconoscimento vocale open source, il Whisper-Medusa, che è il 50% più veloce rispetto al famoso Whisper di OpenAI.
Il Whisper-Medusa, basato sul modello Whisper, utilizza una nuova architettura “multi-head attention” che consente di elaborare molti più token contemporaneamente. Il codice e i pesi del modello sono disponibili su Hugging Face con licenza MIT, permettendo sia la ricerca che l’uso commerciale.
Gill Hetz, vicepresidente della ricerca di aiOla, ha dichiarato che rendere il modello open source favorirà ulteriori innovazioni e miglioramenti grazie alla collaborazione della comunità. Questo sviluppo potrebbe portare a sistemi di intelligenza artificiale capaci di comprendere e rispondere alle domande quasi in tempo reale.
Nonostante la crescente attenzione verso modelli di base che generano contenuti, il riconoscimento vocale avanzato rimane fondamentale. Questa tecnologia è cruciale in settori come l’assistenza sanitaria e la tecnologia finanziaria, oltre a supportare sistemi di intelligenza artificiale multimodale. OpenAI ha utilizzato Whisper per convertire l’audio in testo e poi rispondere tramite modelli linguistici, dimostrando l’importanza di questo tipo di tecnologia.
Whisper ha raggiunto oltre 5 milioni di download al mese e supporta numerose app grazie alla sua capacità di elaborare linguaggi e accenti diversi in tempo reale. AiOla sostiene di aver migliorato ulteriormente questa tecnologia con Whisper-Medusa, che offre una trascrizione del parlato più veloce senza compromettere l’accuratezza.
Il nuovo modello utilizza un meccanismo di attenzione multi-testa, che permette di elaborare dieci token per volta anziché uno, aumentando la velocità di previsione del 50%. Nonostante questa maggiore velocità, la qualità della trascrizione rimane pari a quella del modello originale Whisper.
AiOla ha impiegato una tecnica di apprendimento automatico chiamata supervisione debole, che utilizza le trascrizioni generate dal modello stesso per addestrare nuovi moduli. Hetz ha annunciato che presto verrà rilasciata una versione del modello con 20 teste di attenzione, migliorando ulteriormente la velocità e l’accuratezza.
Sebbene Hetz non abbia rivelato se alcune aziende abbiano avuto accesso anticipato a Whisper-Medusa, ha confermato che il modello è stato testato su dati reali per garantirne l’affidabilità. Questo miglioramento nella velocità di riconoscimento e trascrizione promette risposte più rapide nelle applicazioni vocali, rendendo possibili risposte in pochi secondi.
Hetz conclude che la tecnologia di conversione del parlato in testo in tempo reale avrà un impatto positivo, migliorando la produttività, riducendo i costi operativi e accelerando la produzione di contenuti sia per gli individui che per le aziende.