Supertone, azienda coreana specializzata in tecnologie vocali avanzate, ha annunciato il rilascio di Supertonic, un modello text-to-speech capace di generare voce di alta qualità in tempo reale direttamente sul dispositivo dell’utente. La particolarità più sorprendente è che tutto questo avviene senza l’ausilio di GPU costose, senza cloud, senza infrastrutture remote, ma in maniera completamente locale, sfruttando l’hardware di laptop o dispositivi mobili comuni.
Si tratta di un cambiamento di paradigma nel mondo del TTS (Text To Speech). Molti dei modelli più performanti oggi richiedono risorse di calcolo pesanti e infrastrutture server complesse, cosa che comporta costi elevati, latenza e, soprattutto, interrogativi sempre più pressanti sulla sicurezza dei dati vocali. Con Supertonic, Supertone prova a ribaltare l’approccio tradizionale: la voce sintetica viene generata sul dispositivo dell’utente, con un modello leggerissimo da 66 milioni di parametri capace di funzionare fluidamente anche su notebook economici o su device pensati per la didattica. L’assenza della componente cloud riduce drasticamente i rischi di fuga di informazioni e garantisce tempi di risposta praticamente immediati, un requisito essenziale per applicazioni interattive, agenti vocali e assistenti in tempo reale.
Uno dei punti su cui Supertone insiste è la velocità. I benchmark interni mostrano che Supertonic è in grado di convertire testo in voce a oltre 2.500 caratteri al secondo in un ambiente laptop standard, una prestazione che, se confermata, rappresenterebbe un salto tecnico notevole rispetto ai circa 400 caratteri al secondo ottenuti dai principali modelli TTS globali. È un incremento che non riguarda solo i numeri, ma l’intera esperienza d’uso: con simili prestazioni, si aprono scenari completamente nuovi per contenuti vocali in streaming, narrazioni generate al volo, apprendimento assistito e applicazioni in cui l’IA deve parlare, reagire, adattarsi istantaneamente.
Altro elemento rilevante è la scelta di rilasciare Supertonic come open source. Il codice è disponibile su GitHub, mentre i checkpoint del modello e una demo funzionante sono ospitati su Hugging Face, piattaforma ormai centrale nella comunità globale dell’IA. Una decisione del genere amplifica immediatamente il potenziale del progetto: sviluppatori, ricercatori e aziende possono studiare, personalizzare, integrare e distribuire il modello liberamente. Per facilitare ulteriormente l’adozione, il codice è stato reso accessibile in più di otto linguaggi di programmazione, tra cui Python, C++, JavaScript e altri, rendendo più semplice creare applicazioni vocali in ambienti molto diversi tra loro.
Il percorso di Supertone non si ferma però a questo rilascio. Entro la fine dell’anno l’azienda presenterà Sona Speech 2t, un altro modello TTS on-device, ma distribuito tramite API. Sarà multilingua, con supporto a inglese, coreano, giapponese, spagnolo e portoghese, un ventaglio linguistico essenziale per espandere il raggio d’azione del prodotto a mercati globali e applicazioni di carattere educativo, commerciale o di intrattenimento.
Il CEO Lee Kyo-gu ha descritto l’obiettivo in modo chiaro: semplificare e standardizzare la tecnologia TTS sui dispositivi, costruendo una comunità attiva attorno allo sviluppo open source e creando strumenti realmente accessibili. La visione è quella di portare la voce dell’IA in contesti quotidiani e altamente professionali allo stesso tempo, dai contact center di nuova generazione agli agenti vocali autonomi, fino alle piattaforme di edutech e e-learning che puntano a esperienze più naturali e coinvolgenti.
In fondo, ciò che rende questa notizia particolarmente interessante è l’abbinamento tra leggerezza tecnica, approccio decentralizzato e apertura verso la comunità. Nel momento in cui l’intelligenza artificiale vocale diventa un tassello sempre più importante delle interazioni digitali — dalle app di fitness ai servizi di assistenza clienti, dalle piattaforme educative ai sistemi IoT — la possibilità di generare voce realistica senza dipendere dal cloud potrebbe rivelarsi un punto di svolta, soprattutto per aziende che cercano soluzioni economiche, sicure e rispettose della privacy.
