Soniox è pronta a far avanzare il mercato del riconoscimento vocale AI con maggiore precisione
All’inizio di questa settimana, ho avuto l’opportunità di intervistare Klemen Simonic, fondatore e CEO di Soniox, che ha creato una nuova e promettente infrastruttura di autoapprendimento AI e un set di strumenti per creare soluzioni avanzate di comprensione vocale e audio per risolvere problemi aziendali complessi. “L’ audio sta diventando il mezzo prevalente per una comunicazione rapida e coinvolgente “, ha affermato Klemen Simonic, fondatore e CEO di Soniox.
Fondata nel mese di aprile 2020, a Redmond, California, Soniox fatto la loro prima beta release nel mese di febbraio 2021, e formalmente mercato ha lanciato oggi, 13 maggio th , 2021. Serie A sarà una prossima pietra miliare per la giovane azienda con una grande visione di ritagliarsi conquistare una posizione di mercato come alternativa più affidabile alle attuali soluzioni di riconoscimento vocale. Le prime indicazioni che hanno fatto un passo avanti significativo nel far progredire le soluzioni di riconoscimento vocale AI.
Soniox Speech AI sfrutta enormi quantità di audio e testo senza etichetta disponibili per insegnare a se stesso a riconoscere schemi di discorso complessi. Di conseguenza, Soniox Speech AI è in grado di riconoscere con precisione il parlato negli ambienti del mondo reale sulla maggior parte degli argomenti della conoscenza umana con un’accuratezza fino al ventiquattro percento, un tasso di errore di parola molto migliore rispetto ai principali sistemi vocali odierni. La missione di Soniox è comprendere a fondo l’audio e renderlo universalmente accessibile e utile.
Con un background in matematica e conoscenza della tecnologia informatica, Klemen arriva dalla Slovenia e si è trasferito negli Stati Uniti per conseguire il Master in Informatica presso l’Università dello Utah. Ha lavorato in Facebook per oltre quattro anni su speech AI. È stato durante questo periodo che ha sperimentato quanto sia difficile costruire un sistema di riconoscimento vocale, lasciando il team di intelligenza artificiale di riconoscimento vocale di ottanta persone di Facebook, Klemen, come la maggior parte dei coraggiosi innovatori imprenditori, ha iniziato la sua ricerca per semplificare e consentire la facilità di accesso per costruire un sistema di riconoscimento vocale più accurato.
Quanto è difficile costruire sistemi di riconoscimento vocale accurati e sicuri?
La creazione di sistemi di riconoscimento vocale accurati e sicuri richiede investimenti significativi per ottenere grandi quantità di dati di trascrizione audio accoppiati, quindi gli esseri umani devono ascoltare e trascrivere manualmente ogni registrazione audio. Questo processo è estremamente dispendioso in termini di tempo e denaro. È necessario raccogliere spesso più di diecimila ore di dati trascritti per costruire un sistema di riconoscimento vocale ragionevole. Aziende come Google e Microsoft hanno cinquantamila ore di audio trascritto. Inoltre, è necessario investire decine di milioni di dollari nella raccolta dei dati trascritti. Solo allora si può addestrare un riconoscimento vocale AI sui dati trascritti.
La raccolta dei dati trascritti per il riconoscimento vocale è particolarmente impegnativa, a causa della sua estrema varietà di spazio di input e output. Lo spazio di input è audio che può essere registrato in qualsiasi ambiente con molti tipi di rumori di fondo che rendono la facilità di analisi estremamente difficile da tradurre. Ad esempio, possono esserci più altoparlanti con accenti diversi che riducono la facilità di una traduzione accurata.
Lo spazio di output è una sequenza di tutte le parole possibili da qualsiasi argomento della conoscenza umana. Gli approcci esistenti rendono (quasi) impossibile ottenere una quantità sufficiente di dati di trascrizione audio accoppiati per coprire il complesso spazio di input e output.
I metodi Soniox Speech AI hanno inventato un nuovo approccio all’addestramento dei modelli di riconoscimento vocale per superare i limiti odierni del riconoscimento vocale. Utilizzando metodi di intelligenza artificiale non supervisionati, Soniox Speech AI apprende da grandi quantità di audio senza etichetta e testo senza etichetta che è pubblicamente disponibile su Internet. Impara a riconoscere le parole esplorando diverse interpretazioni di parole pronunciate in audio senza etichetta e il loro utilizzo in testo scritto senza etichetta.
Oggi Soniox Speech AI può riconoscere in modo univoco quasi privo di errori la maggior parte delle parole in lingua inglese senza richiedere la supervisione umana diretta. L’azienda ha una visione per avanzare nel supportare altre lingue a breve per includere: francese, tedesco, spagnolo e infine lingue asiatiche, che sono ancora più complesse da tradurre con precisione.
Quali sono le prospettive di mercato per il riconoscimento vocale?
Voce e audio sono la prossima app di crescita killer poiché l’audio è sempre più il mezzo prevalente per una comunicazione rapida e coinvolgente. Lo vediamo già ora con Clubhouse, Twitter Spaces, Facebook che fanno una copia di Clubhouse, Spotify, podcast e tutti i grandi player tecnologici come: Amazon, Apple, Baidu, Facebook, Google, IBM, Salesforce ha un team di ricerca sull’intelligenza delle emozioni e della voce, spesso con cinquanta o cento più esperti di intelligenza artificiale vocale e rilevamento delle emozioni. Altri attori di mercato meno noti includono: DeepGram e Red.com, sembrano attualmente fare più affidamento su set di dati etichettati rispetto a audio e testo senza etichetta, ma sospetto che anche loro stiano avanzando verso approcci AI non supervisionati date le mutevoli dinamiche di mercato di maggiore precisione e riduzione delle pressioni sui costi .
Il futuro è voce e audio e continueremo a vedere un’esplosione di soluzioni che innoveranno sfruttando piattaforme di riconoscimento vocale più accurate. Ciò che è entusiasmante è che il numero di applicazioni e utenti che utilizzeranno l’audio crescerà in modo esponenziale di 100 volte nei prossimi anni, poiché l’audio e la voce diventeranno sempre più il mezzo di comunicazione preferito.
Basti pensare a tutte le registrazioni su Zoom, o Microsoft Team che possono essere tradotte in modo più accurato e da cui trarre approfondimenti.
Alcune delle applicazioni che possono trarre notevoli vantaggi dall’utilizzo di soluzioni di riconoscimento vocale accurate saranno nel settore automobilistico, dove il riconoscimento vocale spegnerà e spegnerà le auto o bloccherà le porte, fornirà consulenza medica a pazienti remoti, migliorerà le applicazioni dei call center telefonici in cui le trascrizioni aiutano a comprendere il cliente ha bisogno di mercati educativi che rispondano alle domande degli studenti in tempo reale. Le applicazioni di mercato sono infinite quando Soniox entra nel caldo mercato del riconoscimento vocale e, dalle prime indicazioni, hanno una grande possibilità di superare le masse.
Guardando al futuro, alcune delle principali sfide che Klemen vede è rendere le interazioni vocali senza interazioni con uomini e macchine, così mentre passi da una stanza all’altra della tua casa in ogni aspetto della nostra vita, dal nostro soggiorno alle nostre cucine o cortili qualunque sia il dispositivo intelligente presente, capirà la tua voce e le tue esigenze e fornirà un’esperienza utente finale più apparente. Il riconoscimento delle voci in tutti i tipi di ambienti e situazioni è chiamato interazione vocale sensibile al contesto: seguimi ovunque e ovunque.
Non vedo l’ora che la prossima generazione di intelligenza artificiale sappia cosa sto pensando e risponda automaticamente e mi porti il mio cappuccino mattutino, il futuro è davvero la casa interconnessa e più intelligente.
Aziende come Samsung, Tridel e Rogers Communications hanno gli occhi puntati sulla casa connessa più intelligente.
Dean Prevost, Presidente di Rogers Enterprise, ha una visione avvincente: case più intelligenti, Internet delle cose e voce si uniranno per fornire soluzioni per l’assistenza ospedaliera a distanza da casa, per attivare qualsiasi video da un comando vocale da qualsiasi canale, per avviare la lavastoviglie o persino ordinare la spesa con i comandi vocali.
Gli operatori delle telecomunicazioni, come Rogers, sono in una posizione forte per innovare dato che la voce è il loro segno distintivo, raggruppare soluzioni creative end-to-end creerà opportunità e sfide di partnership uniche, ma un denominatore comune sarà la voce che sarà l’attrattore e l’attivatore per l’abilitazione molte delle nostre future esperienze umane e meccaniche.
Forse un giorno vedremo una Apple, Facebook o Microsoft acquisire un importante attore del mercato delle telecomunicazioni o continuare i loro sforzi di disintermediazione dove Internet è sempre più l’autostrada universale per tutto ciò che è digitale.
I primi clienti di Soniox includono DeepScribe.ai. Stavano utilizzando il miglior modello di sintesi vocale di Google disponibile, ma DeepScribe ha deciso di passare a Soniox perché l’intelligenza artificiale di Soniox era più accurata di quella di Google nelle registrazioni delle conversazioni medico-paziente.
Come puoi saperne di più su Soniox?
L’azienda ha sede a Foster City nella Bay Area e dispone di un piccolo team di ingegneri all’estero.
Qualsiasi applicazione che utilizza il parlato come input, può migliorare il proprio prodotto utilizzando Soniox Speech AI. L’API di riconoscimento vocale Soniox può essere utilizzata praticamente da qualsiasi linguaggio di programmazione e piattaforma. Qualsiasi applicazione che utilizza il parlato come input, può migliorare il proprio prodotto utilizzando Soniox Speech AI. L’API di riconoscimento vocale Soniox può essere utilizzata praticamente da qualsiasi linguaggio di programmazione e piattaforma. Per semplificare l’integrazione, Soniox offre una libreria client Python e Javascript di facile utilizzo con tutorial e ampia documentazione. Sono necessarie solo poche righe di codice per integrare il riconoscimento vocale di livello mondiale in (quasi) qualsiasi applicazione.
Disponibile ora su https://soniox.com e come app iOS, Soniox offre servizi e prodotti di riconoscimento vocale per aziende, sviluppatori e consumatori. Soniox ha creato sia l’applicazione Web Soniox che l’applicazione mobile Soniox (per dispositivi iOS).
Tra le altre funzionalità, queste applicazioni consentono agli utenti di trascrivere istantaneamente file audio / video o live streaming, come riunioni e conversazioni. Questi prodotti sono disponibili gratuitamente fino a cinque ore di riconoscimento vocale al mese. Per sviluppatori e aziende, Soniox ha sviluppato un’API di riconoscimento vocale che può essere utilizzata praticamente da qualsiasi linguaggio di programmazione e piattaforma. Per semplificare l’integrazione, Soniox offre una libreria client Python e Javascript di facile utilizzo con tutorial e ampia documentazione. Sono necessarie solo poche righe di codice per integrare il riconoscimento vocale di livello mondiale in (quasi) qualsiasi applicazione. Soniox ha sviluppato un’implementazione locale di Soniox Speech AI, in cui l’intero sistema viene distribuito all’interno dell’infrastruttura aziendale. La distribuzione in locale supporta l’elaborazione efficiente e distribuita di grandi volumi di audio in tempo reale e con impostazioni a bassa latenza. Soniox ha anche sviluppato la distribuzione su dispositivo mobile di Soniox Speech AI per dispositivi iOS. L’intero calcolo avviene sul dispositivo mobile e l’audio non lascia mai il dispositivo. Elimina inoltre il requisito per la connettività di rete durante la trascrizione dei flussi audio.