Immagine AI

Nel settore della sintesi vocale (Text-to-Speech, TTS), è arrivato il rilascio di OmniVoice, il modello open-source di Xiaomi che estende le capacità di generazione vocale a oltre 600 lingue. Il superamento dei limiti dei sistemi tradizionali, spesso vincolati a pipeline complesse e focalizzati prevalentemente sull’inglese o su lingue ad alta disponibilità di risorse, è stato reso possibile da una ristrutturazione profonda dell’architettura di sintesi. OmniVoice abbandona il classico approccio autoregressivo a due fasi, che prevedeva la conversione intermedia del testo in unità semantiche e poi in segnali acustici, a favore di un sistema basato sul concetto di modello linguistico di diffusione. Questa struttura permette di mappare il testo direttamente in token acustici, eliminando i colli di bottiglia computazionali e garantendo una fluidità del parlato precedentemente difficile da ottenere su una scala linguistica così vasta.

L’efficienza del modello è radicata in un processo di addestramento avanzato che sfrutta il “mascheramento casuale dell’intero codebook” (Random Masking of the Entire Codebook). Questa tecnica, unita all’utilizzo dei pesi di un Large Language Model (LLM) pre-addestrato come base di partenza, conferisce a OmniVoice una comprensione linguistica intrinseca fin dalle prime fasi del training. L’integrazione di un dataset monumentale da 581.000 ore di parlato, interamente derivato da fonti open-source, ha permesso di addestrare il sistema anche su lingue con scarse risorse documentali, rendendolo uno strumento senza precedenti per la preservazione digitale delle lingue minoritarie. I risultati nei benchmark tecnici confermano la solidità di questo approccio: con un Word Error Rate (WER) dello 0,84% su test specifici come il Chinese Seed-TTS, il modello supera nelle metriche di naturalezza e similarità vocale (SIM-o) anche i più noti competitor commerciali.

Un parametro critico che distingue OmniVoice è il suo Real Time Factor (RTF) di 0,025. In termini operativi, questa efficienza consente di generare un minuto di audio in circa 1,5 secondi, una velocità circa 40 volte superiore al tempo reale di riproduzione. Tale prestazione apre scenari applicativi massivi nel settore degli audiolibri, del doppiaggio automatizzato per i videogiochi e negli assistenti vocali di nuova generazione, dove la latenza minima è un requisito imprescindibile. La versatilità del modello è ulteriormente esaltata da tre modalità operative: la clonazione vocale zero-shot, che richiede campioni audio di soli 3-10 secondi per replicare un timbro specifico; la progettazione vocale testuale, che permette di definire parametri quali età, genere e intonazione; e la modalità automatica, che genera la voce più adatta basandosi esclusivamente sul contenuto del testo fornito.

Oltre alle pure prestazioni acustiche, OmniVoice introduce un controllo granulare sulla prosodia e sulla fonetica. Attraverso il supporto al sistema Pinyin e ai simboli fonetici internazionali, gli sviluppatori possono regolare con precisione la pronuncia, mentre l’architettura di diffusione consente di modulare la velocità del parlato e la durata delle pause. La capacità del modello di integrare espressioni non verbali, come respiri o risate, contribuisce a ridurre quella “valle perturbante” tipica delle voci sintetiche, rendendo l’output indistinguibile da quello umano. Rilasciato con licenza Apache 2.0 su piattaforme come GitHub e HuggingFace, OmniVoice non si propone solo come un traguardo ingegneristico, ma come un’infrastruttura democratica per l’innovazione globale nel campo delle interfacce vocali.

Di Fantasy