La tecnologia di riconoscimento vocale è cruciale per i sistemi di intelligenza artificiale che combinano diverse modalità. Molti modelli attuali, nonostante i progressi, possono ancora avere difficoltà a comprendere il linguaggio umano. Oggi, la startup aiOla ha compiuto un passo avanti in questo settore annunciando un metodo per insegnare ai modelli a capire il linguaggio e il gergo specifico di vari settori.
Questo sviluppo mira a migliorare l’accuratezza e la responsività dei sistemi di riconoscimento vocale, rendendoli più adatti anche in contesti aziendali complessi e in ambienti rumorosi. Inizialmente, aiOla ha adattato il modello Whisper di OpenAI, noto per le sue capacità nel riconoscimento vocale in inglese, migliorando la precisione nella detezione delle parole e nell’accuratezza generale.
La startup afferma di poter applicare questo approccio a qualsiasi modello di riconoscimento vocale, compresi quelli di Meta, aprendo la strada a miglioramenti anche nei modelli di conversione da parlato a testo.
L’innovazione di aiOla si concentra su un metodo chiamato “bias contestuale”, che consiste in due fasi. Prima, il loro modello AdaKWS identifica il gergo specifico di un dominio da un campione di discorso, quindi guida il decoder ASR ad incorporare queste parole chiave nel testo