Hume AI, una startup con sede a New York emersa dall’ombra due anni fa, ha fatto passi da gigante nel campo delle voci AI emotive per applicazioni aziendali. Oggi, l’azienda compie un ulteriore balzo in avanti con il lancio di Octave, un nuovo modello di linguaggio e voce di grandi dimensioni progettato per generare discorsi realistici e ricchi di sfumature emotive, destinati a una vasta gamma di contenuti, dagli audiolibri ai dialoghi preregistrati dei personaggi dei videogiochi, fino a produzioni cinematografiche e televisive.​

Octave si distingue come il primo sistema text-to-speech alimentato da un modello di linguaggio di grandi dimensioni (LLM) addestrato non solo su testi, ma anche su dati vocali ed emozionali. Questa combinazione unica permette al modello di comprendere le parole nel loro contesto e di adattare di conseguenza tono, ritmo e cadenza. Gli utenti hanno la possibilità di regolare queste caratteristiche a livello di frase attraverso semplici prompt testuali.​

Come spiegato da Alan Cowen, cofondatore e CEO di Hume AI, “Stiamo lanciando il primo LLM per il text-to-speech, un modello che comprende le parole nel contesto, prevedendo le emozioni, il ritmo, la cadenza e l’enfasi appropriate, rendendo il discorso più umano che mai”.​

Le capacità di Octave vanno oltre la semplice generazione vocale. Il modello è in grado di interpretare tratti caratteriali e stili direttamente da un copione, adattando le inflessioni vocali per rispecchiare le emozioni implicite. Ad esempio, una battuta sarcastica verrà espressa con tono sarcastico, una frase di panico suonerà urgente e un segreto sussurrato sarà pronunciato in modo sommesso, tutto senza necessitare di istruzioni esplicite.​

Inoltre, se l’utente desidera modificare la voce generata o apportare aggiustamenti, può farlo in modo dettagliato attraverso istruzioni in linguaggio naturale, semplicemente digitando comandi come “più felice”, “più triste”, “più frustrato”, “più arrabbiato”, “più sarcastico”, “più sincero” e così via.​

Cowen aggiunge: “Puoi descrivere un personaggio, come un sarcastico contadino medievale, e il modello creerà istantaneamente quella voce, adattando emozioni come rabbia, tristezza o felicità in base alle tue istruzioni. La modulazione della voce funziona a livello di frase, ma puoi anche regolare parti di una frase, istruendo il modello a trasmettere emozioni sfumate come una leggera frustrazione mescolata a umorismo o esasperazione”.​

Octave rappresenta un significativo passo avanti nella tecnologia text-to-speech, offrendo una flessibilità e una profondità emotiva senza precedenti. Questa innovazione ha il potenziale per trasformare il modo in cui le voci AI vengono utilizzate in vari settori, migliorando l’esperienza utente attraverso interazioni vocali più naturali e coinvolgenti.

Di Fantasy