Amazon ha annunciato la condivisione di BASE TTS, un modello di sintesi vocale che rappresenta uno standard avanzato nel parlato naturale. Il modello è stato allenato su una vasta quantità di dati vocali di dominio pubblico, includendo principalmente inglese ma anche tedesco, olandese e spagnolo.
Il modello utilizza un trasformatore con un miliardo di parametri e un decodificatore basato sulla convoluzione per convertire efficacemente il testo in voce. Introduce un nuovo metodo per analizzare il parlato, permettendo di distinguere tra diverse voci, e utilizza la codifica a coppia di byte per ridurre la dimensione dei dati vocali, migliorando così l’efficienza e la velocità del modello.
Con più di 10.000 ore di addestramento, BASE TTS è in grado di comprendere meglio il testo e produrre un parlato più adatto al contesto. Può gestire caratteristiche linguistiche complesse e esprimere emotività, dimostrando la sua versatilità.
Amazon ha sviluppato BASE TTS con l’idea che i sistemi di sintesi vocale più grandi avrebbero beneficiato della scala. Il modello offre un parlato di alta qualità e nuove capacità, come la pronuncia corretta di testi difficili e l’uso di toni emotivi appropriati, superando altri sistemi di sintesi vocale.
BASE TTS potrebbe migliorare l’esperienza degli utenti e supportare lingue con poche risorse. Può imitare le caratteristiche degli oratori con poca informazione audio di riferimento, offrendo nuovi strumenti per creare voci sintetiche per coloro che non possono parlare. Tuttavia, Amazon ha deciso di non condividere apertamente il modello per evitare abusi, riflettendo su considerazioni etiche legate all’uso dell’intelligenza artificiale avanzata.
Le capacità avanzate di BASE TTS, finora non raggiunte da altri modelli vocali, indicano il potenziale per una maggiore inclusione linguistica e culturale. Il gruppo di ricerca sottolinea l’importanza di dati linguistici diversificati per rappresentare varie lingue, etnie, dialetti e generi, e invita a ulteriori ricerche sull’influenza dei dati sul modello e sui modi per rendere la tecnologia vocale più inclusiva.