Due ricercatori di NVIDIA, Akshit Arora e Rafael Valle, erano desiderosi di comunicare con le famiglie delle loro mogli nelle rispettive lingue madri. Arora, che lavora come data scientist senior per NVIDIA e supporta uno dei loro principali clienti, parla Punjabi, mentre la famiglia di sua moglie parla Tamil, una barriera linguistica che ha cercato di superare per molto tempo. Anche Valle, originario del Brasile, si è trovato di fronte a una sfida simile poiché la moglie e la sua famiglia parlano Gujarati.
Valle ha raccontato di aver provato diversi prodotti per facilitare la comunicazione, ma nessuno si è rivelato completamente efficace. Questa esigenza li ha spinti a sviluppare modelli di sintesi vocale multilingue capaci di tradurre la loro voce in diverse lingue in tempo reale. Questo sforzo ha portato loro a vincere dei concorsi.
In un’intervista con AIM, Arora ha fornito ulteriori dettagli, spiegando come la loro partecipazione a un concorso sia stata stimolata dal lavoro su un modello chiamato P-Flow, ideale per questo genere di competizioni. Insieme a Sungwon Kim e Rohan Badlani, Arora e Valle hanno vinto la sfida LIMMITS ’24, che richiedeva ai partecipanti di replicare la voce di un oratore in diverse lingue in tempo reale, utilizzando solo un breve campione di discorso di tre secondi.
Kim, una ricercatrice di deep learning presso l’ufficio di NVIDIA a Seoul, stava già lavorando su un modello adatto per la sfida. Badlani, avendo vissuto in sette diversi stati indiani, ognuno con la propria lingua dominante, ha ispirato la sua dedizione a questa ricerca.
Il Laboratorio SPIRE presso l’IISc di Bangalore ha organizzato la sfida MMITS-VC, una delle principali sfide della Conferenza internazionale IEEE sull’acustica, il parlato e l’elaborazione del segnale (ICASSP) del 2024. In questa competizione, sono stati resi disponibili 80 ore di dati di sintesi vocale (TTS) in diverse lingue, che si aggiungevano ai dati già rilasciati in precedenza.
Nella competizione, i modelli sono stati testati in tre categorie. Arora ha rivelato che uno dei loro modelli si è classificato molto bene in una delle categorie, sottolineando che nessun modello è perfetto in tutte le categorie. NVIDIA ha adottato strategie diverse per le varie categorie, utilizzando il modello RAD-MMM per TTS con pochi scatti e il modello P-Flow per la Track 3, un modello TTS zero-shot veloce ed efficiente.
Una delle caratteristiche distintive di P-Flow è la sua capacità di zero-shot. Arora ha menzionato che il loro modello TTS zero-shot si è dimostrato il migliore nella sua categoria. Presenteranno questo modello anche al GTC 2024.
L’anno scorso, hanno anche utilizzato RAD-MMM, sviluppato dal team di ricerca NVIDIA Applied Deep Learning, e hanno creato “VANI”, un sistema di sintesi vocale leggero e multilingue. Il progetto è stato utilizzato anche nella competizione.
Arora e Badlani hanno iniziato il loro viaggio quasi due anni fa, formando una squadra per una versione diversa della sfida prevista per il 2023. Hanno dovuto intensificare i loro sforzi poiché la sfida del 2024 è stata annunciata solo 15 giorni prima della scadenza.
P-Flow sarà implementato in NVIDIA Riva, un framework per lo sviluppo di software di intelligenza artificiale vocale e di traduzione multilingue. Arora spera che i clienti siano ispirati ad esplorare ulteriormente questa tecnologia e ha espresso orgoglio per il lavoro svolto ogni giorno.