La sintesi vocale AI ha compiuto passi da gigante, permettendo la creazione di voci artificiali sempre più realistiche. Tuttavia, le architetture tradizionali, come i modelli Transformer, presentano limitazioni in termini di latenza e consumo di memoria. Per affrontare queste sfide, la startup americana Zyphra ha introdotto Zenos, un modello di sintesi vocale open source che utilizza l’architettura Mamba, progettata per superare le restrizioni dei Transformer.

I modelli Transformer operano memorizzando tutte le informazioni nel “hidden state” durante l’elaborazione dei dati. Questo approccio è efficace per mantenere il contesto, ma comporta un elevato carico computazionale e un significativo consumo di memoria, poiché l’intero stato nascosto deve essere riesaminato con l’arrivo di nuovi dati. L’architettura Mamba, basata su modelli di stato spaziale (SSM), affronta questo problema riassumendo e comprimendo i dati precedenti. Quando vengono introdotti nuovi input, Mamba aggiorna lo stato nascosto eliminando le informazioni non essenziali, permettendo al modello di focalizzarsi sugli elementi chiave e di gestire sequenze di testo più lunghe in modo efficiente.

Zenos è disponibile in due versioni principali:

  • Modello Transformer tradizionale: con 1,6 miliardi di parametri, offre prestazioni solide ma con le limitazioni tipiche dei Transformer.
  • Modello ibrido Mamba-Transformer: combina l’architettura SSM di Mamba con elementi dei Transformer, risultando in una riduzione della latenza del 20% e un’ottimizzazione dell’uso della memoria rispetto al modello Transformer puro.

Entrambe le versioni sono state addestrate su un vasto dataset di 200.000 ore di dati vocali, coprendo una gamma diversificata di stili, dalle narrazioni di audiolibri a espressioni vocali ricche di emozioni. Zenos è in grado di generare audio di alta qualità a 44 kHz utilizzando campioni vocali di soli 5-30 secondi. Supporta cinque lingue: inglese, giapponese, cinese, francese e tedesco. Inoltre, gli utenti possono personalizzare vari aspetti della voce sintetizzata, tra cui velocità, intonazione, qualità audio e tonalità emotiva.

Una delle caratteristiche distintive di Zenos è la sua efficienza. Può essere eseguito localmente su una GPU RTX 4090, registrando una latenza media di 200-300 millisecondi, rendendolo adatto per applicazioni in tempo reale. Il modello è attualmente disponibile per il download sulla piattaforma Hugging Face, consentendo agli sviluppatori di integrarlo facilmente nelle proprie applicazioni.

Zenos si inserisce in un contesto competitivo nel campo della sintesi vocale. Nel dicembre 2024, la startup Gartesia ha lanciato Sonic, un modello di clonazione vocale basato su Mamba SSM, noto per la sua latenza inferiore ai 90 millisecondi. All’inizio del 2024, la startup canadese MyShell ha introdotto OpenVoice, un modello open source capace di replicare la voce di un utente in un solo secondo, ideale per la sintesi vocale in tempo reale. La principale differenza di Zenos risiede nella combinazione dell’architettura Mamba con elementi dei Transformer, offrendo un equilibrio tra velocità, efficienza e qualità audio.

Di Fantasy