Dia è un modello di sintesi vocale open source sviluppato dalla startup Nari Labs. Con un impressionante numero di 1,6 miliardi di parametri, Dia si propone come una valida alternativa ai modelli proprietari di aziende consolidate come ElevenLabs e OpenAI, offrendo prestazioni superiori in termini di naturalezza e controllo espressivo.
La storia di Dia è tanto affascinante quanto il suo sviluppo tecnologico. Fondato da due ingegneri, Toby Kim e un collaboratore, Nari Labs è nato senza finanziamenti esterni. La loro passione per la sintesi vocale è iniziata con l’apprezzamento per la funzione di generazione di podcast di NotebookLM di Google. Insoddisfatti dalle limitazioni degli strumenti esistenti, hanno deciso di creare una soluzione che offrisse maggiore controllo sulle voci e libertà nella scrittura dei copioni. Grazie all’accesso alle Tensor Processing Unit (TPU) di Google attraverso il Research Cloud, hanno potuto allenare Dia, che ora è disponibile su piattaforme come Hugging Face e GitHub per il download e l’uso locale .
Una delle principali innovazioni di Dia è la sua capacità di comprendere e riprodurre segnali non verbali all’interno del testo. Utilizzando tag come [S1], [S2], (ride), (tosse) o (sospiro), gli utenti possono arricchire il dialogo con espressioni emotive e comportamentali, che Dia interpreta correttamente durante la generazione audio. Questa funzionalità è particolarmente utile per la creazione di contenuti realistici e coinvolgenti, come sceneggiature o dialoghi interattivi.
Inoltre, Dia offre un controllo avanzato sul tono emotivo e sullo stile vocale. Sebbene attualmente sia disponibile solo in inglese e non sia legato a una voce specifica, gli utenti possono influenzare la qualità e il carattere della voce fornendo un clip audio come prompt. Questo approccio consente una personalizzazione profonda, rendendo Dia adatto a una vasta gamma di applicazioni, dalla creazione di contenuti multimediali all’assistenza vocale personalizzata.
Rispetto ad altri modelli di sintesi vocale, Dia si distingue per la sua capacità di gestire conversazioni complesse e multivocali con naturalezza. In scenari di dialogo, Dia mantiene un ritmo fluido e una transizione emotiva coerente, mentre altri modelli tendono a produrre output più rigidi o monotoni. Ad esempio, in una scena drammatica, Dia è riuscito a trasmettere efficacemente l’urgenza e lo stress del parlante, mentre altri modelli hanno appiattito la consegna o perso il ritmo. Inoltre, Dia ha gestito con successo contenuti ritmicamente complessi, come testi rap, mantenendo il tempo e l’espressività, mentre altri modelli hanno prodotto output più monotoni o disgiunti .
Uno degli aspetti più rilevanti di Dia è la sua natura open source. Rilasciato sotto la licenza Apache 2.0, Dia può essere utilizzato liberamente per scopi commerciali, offrendo opportunità a sviluppatori e aziende di integrare la sintesi vocale avanzata nelle loro applicazioni. Nari Labs ha esplicitamente vietato l’uso del modello per attività come l’imitazione di individui, la diffusione di disinformazione o attività illegali, promuovendo un utilizzo responsabile e etico della tecnologia.