Microsoft ha introdotto VALL-E 2, un nuovo modello neurale per la sintesi vocale basato sul successo del suo predecessore, VALL-E. Questo modello, progettato per raggiungere prestazioni di livello umano nella sintesi text-to-speech (TTS) zero-shot, implementa due nuove funzionalità innovative per migliorare la stabilità e l’efficienza del processo di generazione vocale.
Le nuove funzionalità includono il “Campionamento consapevole della ripetizione”, che migliora la stabilità del processo considerando la ripetizione dei token nella sequenza di decodifica, e la “Modellazione di codici raggruppati”, che organizza i codici codec in gruppi per ridurre la lunghezza della sequenza e accelerare l’inferenza.
Queste innovazioni consentono a VALL-E 2 di sintetizzare il parlato con elevata precisione e naturalezza anche per frasi complesse, utilizzando solo semplici dati di coppie di trascrizione vocale per l’addestramento.
Il modello è stato valutato su diversi set di dati, dimostrando prestazioni superiori in termini di robustezza del parlato, naturalezza e somiglianza dei parlanti rispetto ai sistemi precedenti. È il primo modello a raggiungere la parità umana su questi parametri, producendo un parlato di alta qualità per frasi complesse e ripetitive.
Tuttavia, sebbene VALL-E 2 offra promesse significative, comporta anche rischi di uso improprio, come lo spoofing vocale o l’imitazione. Pertanto, l’uso del modello dovrebbe richiedere il consenso dell’utente e includere protocolli per l’approvazione degli oratori e il rilevamento del parlato sintetizzato per prevenire abusi.
Inoltre, le funzionalità di VALL-E 2 potrebbero essere particolarmente utili per la generazione del parlato per soggetti con disturbi del linguaggio, come afasia o sclerosi laterale amiotrofica.