Nvidia lancia il framework AI conversazionale Jarvis in disponibilità generale
Al suo GTC 2021, Nvidia ha annunciato questa mattina la disponibilità generale del suo framework Jarvis, che fornisce agli sviluppatori modelli di intelligenza artificiale pre-addestrati e strumenti software per creare esperienze di conversazione interattive. Nvidia afferma che i modelli Jarvis, che sono diventati disponibili per la prima volta nel maggio 2020 in anteprima, offrono riconoscimento vocale automatico, nonché comprensione della lingua, traduzioni linguistiche in tempo reale e funzionalità di sintesi vocale per agenti di conversazione.
L’ubiquità degli smartphone e delle app di messaggistica, stimolata dalla pandemia, ha contribuito alla maggiore adozione delle tecnologie di conversazione. Il 56% delle aziende ha dichiarato ad Accenture in un sondaggio che i bot conversazionali e altre esperienze stanno determinando l’interruzione del proprio settore. E uno studio di Twilio ha mostrato che 9 consumatori su 10 vorrebbero l’opzione di utilizzare la messaggistica per contattare un’azienda.
Sfruttando l’accelerazione della GPU, la pipeline di Jarvis può essere eseguita in meno di 100 millisecondi e distribuita nel cloud, in un data center o sull’edge. Il framework include modelli addestrati su oltre 1 miliardo di pagine di testo e oltre 60.000 ore di parlato che possono essere regolate, ottimizzate, messe a punto con dati personalizzati e adattate a diverse attività, settori e sistemi.
T-Mobile è tra i primi utenti di Jarvis e Jarvis, che supporta cinque lingue tra cui inglese, cinese e giapponese, ha collezionato più di 45.000 download da quando è diventato disponibile all’inizio dello scorso anno. Secondo Nvidia, il gigante delle telecomunicazioni sta utilizzando il framework per aiutare a risolvere i problemi del servizio clienti in tempo reale.
Anche prima della pandemia, gli agenti autonomi stavano per diventare la regola piuttosto che l’eccezione, in parte perché i consumatori preferiscono così. Secondo una ricerca pubblicata lo scorso anno dalla sussidiaria di Vonage NewVoiceMedia, il 25% delle persone preferisce che le proprie domande vengano gestite da un chatbot o da un’altra alternativa self-service. E Salesforce afferma che circa il 69% dei consumatori sceglie i chatbot per comunicare rapidamente con i marchi.
Nvidia ha anche annunciato che sta collaborando con Mozilla Common Voice, una raccolta open source di dati vocali per startup, ricercatori e sviluppatori per addestrare app, servizi e dispositivi abilitati alla voce. Common Voice, il set di dati vocali di dominio pubblico multilingue più grande al mondo, contiene oltre 9.000 ore totali di dati vocali forniti in 60 lingue diverse. Nvidia afferma che sta utilizzando Jarvis per sviluppare modelli pre-addestrati con il set di dati che offrirà poi gratuitamente alla comunità.
“Abbiamo lanciato Common Voice per insegnare alle macchine come le persone reali parlano nelle loro lingue, accenti e schemi vocali unici”, ha detto in un comunicato stampa il direttore esecutivo di Mozilla Mark Surman. “Nvidia e Mozilla hanno una visione comune di democratizzazione della tecnologia vocale e di garantire che rifletta la ricca diversità di persone e voci che compongono Internet”.
Le nuove funzionalità rivelate in Jarvis verranno rilasciate nel secondo trimestre del 2021 come parte del programma open beta in corso di Nvidia. Gli sviluppatori possono scaricare il framework oggi stesso dal catalogo NGC di Nvidia.