In una terra che respira storia, arte e suoni familiari, è nata una voce che incarna tutto ciò—ma è un’intelligenza artificiale. Il suo nome è Azzurra, ed è considerata la voce sintetica più “umana” d’Italia. A crearla sono stati gli ingegneri di Cartesia, uno spin‑off dell’Università di Pisa noto anche per Abel, il robot umanoide capace di percepire emozioni.
A differenza delle tante voci digitali, spesso monocordi o innaturalmente fredde, Azzurra si distingue per la sua musicalità, timbro caldo e capacità conversazionale. È una voce che “sorprende per la sua empatia,” spiegano i suoi creatori, quasi fosse in grado di sostenere un dialogo vivo e coinvolgente.
Cosa rende Azzurra così speciale? Il processo d’addestramento è stato particolarmente innovativo e accurato. Partendo dalla “lallazione”—quel suono gutturale e spontaneo dei neonati—il modello ha imparato a costruire timbri autentici. Da migliaia di ore di audio in italiano accompagnati dai relativi testi, i ricercatori hanno selezionato campioni vocali che suonavano realmente naturali, eliminando quelli più meccanici e poco espressivi. Solo poi, in una seconda fase, l’algoritmo è stato raffinato per conferire profondità e verosimiglianza alla voce finale.
Oggi, Azzurra è considerata il miglior modello open text‑to‑speech italiano in circolazione, grazie a questa miscela di complessità tecnica e sensibilità vocale.
Ma l’avventura non si ferma qui. Nei prossimi mesi, Cartesia prevede di evolvere Azzurra in una voce meno “assistenziale” e più amichevole, capace di svolgere il ruolo di compagno, non solo di assistente virtuale. E entro la fine dell’anno dovrebbe arrivare un agente artificiale “personale e locale”, integrato con riconoscimento vocale e generazione di risposte. Sempre nel 2025, una versione ancora più fluida e realistica del robot Abel verrà presentata nei festival dedicati all’innovazione e alla robotica, avvicinando tecnologia, cultura e turismo toscano.
Così, in un luogo dove le storie si scrivono con l’accento della voce, Azzurra emerge come un ponte tra umano e artificiale, tra cuore e processori, capace di restituire ai suoni digitali quel calore e quella naturalezza che credevamo irripetibili.