Ora parli la mia lingua: NVIDIA Riva imposta un nuovo livello per l’IA vocale completamente personalizzabile
Che si tratti di assistenti virtuali, trascrizioni o contact center, i servizi di intelligenza artificiale vocale stanno trasformando parole e conversazioni in bit e byte di magia aziendale.
Al GTC di questa settimana, NVIDIA ha annunciato nuove aggiunte a NVIDIA Riva , un kit di sviluppo software con accelerazione GPU per la creazione e l’implementazione di applicazioni di intelligenza artificiale vocale.
I modelli preaddestrati di Riva sono ora offerti in sette lingue, tra cui francese e hindi. Altre lingue all’orizzonte: arabo, italiano, giapponese, coreano e portoghese. Riva apporta anche miglioramenti nella precisione per inglese, tedesco, mandarino, russo e spagnolo. Inoltre, aggiunge funzionalità come i punteggi di affidabilità a livello di parola e la diarizzazione degli oratori, il processo di identificazione degli oratori nei flussi audio.
Riva è progettato per essere completamente personalizzabile in ogni fase della pipeline di intelligenza artificiale vocale per aiutare a risolvere problemi unici in modo efficiente. Gli sviluppatori possono anche implementarlo dove vogliono che i loro dati siano: on premise, per multicloud ibridi, all’edge o in dispositivi embedded. Viene utilizzato dalle imprese per rafforzare i servizi, l’efficienza e il vantaggio competitivo.
Mentre l’IA per i servizi vocali è stata molto richiesta, gli strumenti di sviluppo sono rimasti indietro. Sempre più persone lavorano e imparano da casa, acquistano online e cercano assistenza clienti remota, il che mette a dura prova i call center e spinge le applicazioni vocali al limite. I tempi di attesa del servizio clienti sono recentemente triplicati poiché la carenza di personale ha colpito duramente i call center, secondo un rapporto Bloomberg del 2022.
I progressi nell’IA del parlato offrono la via da seguire. NVIDIA Riva consente alle aziende di esplorare modelli di deep learning più ampi e di sviluppare sistemi vocali più sfumati. Le applicazioni di Speech AI basate su Riva forniscono un percorso accelerato verso servizi migliori, promettendo esperienze e coinvolgimento dei clienti migliori.
Domanda crescente di applicazioni di intelligenza artificiale vocale
Il mercato mondiale dei software per contact center ha raggiunto circa $ 27 miliardi nel 2021, una cifra che dovrebbe quasi triplicare a $ 79 miliardi entro il 2029, secondo Fortune Business Insights.
Questo aumento è dovuto ai vantaggi che le applicazioni vocali personalizzate offrono alle aziende di qualsiasi dimensione, in quasi tutti i settori, dalle aziende globali, ai produttori di apparecchiature originali che forniscono sistemi basati sull’intelligenza artificiale vocale e servizi cloud, agli integratori di sistemi e ai fornitori di software indipendenti.
Riva SDK accelera i flussi di lavoro dell’IA
NVIDIA Riva include modelli linguistici pre-addestrati che possono essere utilizzati così come sono o perfezionati utilizzando l’apprendimento del trasferimento da NVIDIA TAO Toolkit , che consente set di dati personalizzati in un ambiente senza codice. I modelli Riva automatizzati di riconoscimento vocale (ASR) e di sintesi vocale (TTS) possono essere ottimizzati, esportati e implementati come servizi vocali.
L’intelligenza artificiale vocale si sta facendo strada in sempre più tipi di applicazioni, come assistenti virtuali e chatbot per l’assistenza clienti, sistemi di videoconferenza, ordini di cibo pronto drive-thru, vendita al dettaglio per telefono, media e intrattenimento. Le organizzazioni globali hanno adottato Riva per guidare gli sforzi dell’IA vocale, tra cui T-Mobile, Deloitte, HPE, Interactions, 1-800-Flowers.com, Quantiphi e Kore.ai.
T-Mobile ha adottato Riva per il suo T-Mobile Expert Assist, un’applicazione di call center personalizzata che utilizza l’intelligenza artificiale per trascrivere le conversazioni dei clienti in tempo reale e consigliare soluzioni, per 17.000 agenti del servizio clienti. T-Mobile prevede di implementare presto Riva in tutto il mondo.
Hewlett Packard Enterprise offre server HPE ProLiant che includono GPU NVIDIA e software NVIDIA Riva in un sistema in grado di sviluppare ed eseguire complessi carichi di lavoro di elaborazione del linguaggio e dell’IA vocale che possono facilmente trasformare l’audio in informazioni dettagliate. I sistemi HPE ProLiant e NVIDIA Riva costituiscono una soluzione full-stack di prim’ordine per l’esecuzione di servizi finanziari e altre applicazioni del settore.
“Per offrire le capacità di NVIDIA Riva, HPE offre un’architettura di riferimento NLP basata su Kubernetes basata sul software HPE Ezmeral”, ha affermato Scott Ramsay, vicepresidente delle soluzioni HPE GreenLake presso HPE. “Fornito tramite la piattaforma cloud HPE GreenLake, questo sistema consente agli sviluppatori di accelerare lo sviluppo e l’implementazione di applicazioni di IA vocale di prossima generazione”.
Deloitte supporta i clienti che desiderano implementare casi d’uso ASR e TTS, ad esempio per i sistemi di acquisizione degli ordini in alcuni dei più grandi ristoranti per ordini veloci del mondo. Sta inoltre sviluppando servizi di chatbot per gli operatori sanitari che consentiranno trascrizioni accurate ed efficienti per le domande dei pazienti e i riepiloghi delle chat.
“I progressi nell’elaborazione del linguaggio naturale consentono di progettare esperienze convenienti che consentono conversazioni con i clienti mirate, semplici e naturali”, ha affermato Christine Ahn, principale di Deloitte US. “I nostri clienti sono alla ricerca di un percorso semplificato per l’implementazione dell’IA conversazionale e NVIDIA Riva supporta tale percorso”.
Interactions ha integrato Riva con la sua piattaforma software Curo per creare interazioni personalizzate e senza interruzioni per i clienti in un’ampia gamma di settori che includono le telecomunicazioni, nonché per aziende come 1-800-Flowers.com , che ha implementato un ordine di intelligenza artificiale vocale- sistema di presa.
Kore.ai sta integrando Riva con il contact-center-as-a-service SmartAssist speech AI, che alimenta i suoi prodotti BankAssist, HealthAssist, AgentAssist, HR Assist e IT Assist. Proof of Concepts con NVIDIA Riva sono in corso.
Quantiphi è un partner per la fornitura di soluzioni che sta sviluppando soluzioni di sottotitoli utilizzando Riva per i clienti nei settori dei media e dell’intrattenimento, tra cui Fox News. Sta inoltre sviluppando avatar digitali con Riva per le telecomunicazioni e altri settori.
Condutture di intelligenza artificiale per discorsi complessi, soluzioni più semplici
Le pipeline di IA vocale possono essere complesse e richiedere il coordinamento tra più servizi. I microservizi devono essere eseguiti su larga scala con modelli ASR, comprensione del linguaggio naturale, TTS e app specifiche del dominio. Le GPU NVIDIA sono ideali per l’accelerazione di questi tipi di attività specializzate.
Riva offre librerie software per la creazione di applicazioni di intelligenza artificiale vocale e include servizi ottimizzati per GPU per ASR e TTS che utilizzano i più recenti modelli di deep learning. Gli sviluppatori possono unire queste molteplici capacità di intelligenza artificiale vocale all’interno delle loro applicazioni.
Gli sviluppatori possono accedere facilmente ai modelli Riva e pre-addestrati tramite NVIDIA NGC , un hub per software, modelli ed esempi di notebook Jupyter con intelligenza artificiale ottimizzata per GPU.
Il supporto per Riva è disponibile tramite NVIDIA AI Enterprise , una suite cloud-native di software di analisi dei dati e intelligenza artificiale ottimizzata per consentire a qualsiasi organizzazione di utilizzare l’IA. È certificato per l’implementazione ovunque, dal data center aziendale al cloud pubblico, e include il supporto aziendale globale per tenere traccia dei progetti di intelligenza artificiale.