La società coreana Supertone ha presentato “Supertonic 3”, una nuova generazione di modello text-to-speech progettata per funzionare direttamente sui dispositivi locali senza necessità di connessione continua a server cloud o GPU dedicate. Il sistema rappresenta un’evoluzione significativa rispetto alla versione precedente, sia sul piano architetturale sia per quanto riguarda l’estensione linguistica e l’ottimizzazione delle performance in ambienti edge e embedded.
Il modello è stato sviluppato come soluzione TTS leggera basata su ONNX e pensata specificamente per l’esecuzione locale su PC, browser, smartphone, e-reader, Raspberry Pi e dispositivi a bassa potenza computazionale. L’obiettivo dichiarato è ridurre la dipendenza dall’infrastruttura cloud, migliorando al contempo privacy, latenza e costi operativi nelle applicazioni vocali AI. In questo approccio, la sintesi vocale non viene più delegata a datacenter remoti, ma eseguita direttamente sull’hardware dell’utente finale, con tempi di risposta quasi in tempo reale anche in modalità offline.
Uno degli aspetti più rilevanti riguarda l’efficienza computazionale del modello. Supertonic 3 utilizza circa 99 milioni di parametri e un pacchetto ONNX complessivo di circa 404 MB, dimensioni molto inferiori rispetto ai modelli open source TTS di fascia alta che spesso superano diversi miliardi di parametri. Questa riduzione permette di ottenere inferenza rapida anche su CPU standard, senza accelerazione GPU, mantenendo comunque qualità vocale naturale e supporto multilingua avanzato.
La nuova versione amplia inoltre il supporto linguistico da 5 a 31 lingue, includendo giapponese, arabo, tedesco, russo, turco, vietnamita e molte altre oltre a coreano, inglese, francese, spagnolo e portoghese già presenti nella release precedente. L’espansione linguistica è accompagnata da un miglioramento nella gestione della pronuncia, della coerenza fonetica e della stabilità generativa, con particolare attenzione alla riduzione di errori tipici dei sistemi TTS moderni come ripetizioni involontarie, omissioni di parole e distorsioni nella continuità della frase.
Supertone ha introdotto nuove ottimizzazioni basate su “Length-Aware Rotary Position Embedding” e su una struttura denominata “Self-Purifying Flow Matching”, progettata per migliorare l’allineamento tra testo e output vocale durante la generazione. Secondo l’azienda, queste modifiche consentono di ottenere sintesi naturale anche con un numero molto ridotto di passaggi inferenziali, riducendo ulteriormente tempi di elaborazione e consumo energetico.
Particolarmente interessante è anche l’introduzione dei tag emozionali direttamente nel testo. Il sistema permette infatti di inserire elementi come , , o per controllare risate, respiri, sospiri o urla senza pipeline separate di post-processing audio. Questo approccio consente di integrare componenti espressive e paralinguistiche direttamente nel flusso di generazione, rendendo il modello potenzialmente utile per assistenti vocali evoluti, accessibilità, doppiaggio sintetico, gaming e interfacce conversazionali avanzate.
Un’altra area di sviluppo riguarda la normalizzazione automatica del testo, cioè la capacità del modello di interpretare correttamente numeri, valute, unità di misura, date e abbreviazioni senza sistemi esterni di preprocessing. Nei test mostrati dall’azienda, espressioni come importi finanziari, velocità o misure vengono convertite automaticamente in lettura naturale, riducendo uno dei problemi più frequenti nei sistemi vocali compact destinati all’uso embedded.
Il modello viene inoltre distribuito come open source commerciale tramite GitHub, scelta che potrebbe favorirne l’adozione in contesti enterprise e sviluppo indipendente. Parallelamente, Supertone sta espandendo il proprio ecosistema con “Voice Builder”, uno strumento che consente agli sviluppatori di creare modelli vocali personalizzati basati sulla propria voce o su dataset proprietari, integrando così clonazione vocale e sintesi on-device in un’unica pipeline tecnologica.