Il linguaggio riveste un ruolo fondamentale nelle interazioni umane, ma ancor più importante è l’emozione che si cela dietro le parole. Esprimere felicità, tristezza, rabbia, frustrazione e altre emozioni ci aiuta a trasmettere i nostri messaggi e a stabilire connessioni significative.
Nonostante i notevoli progressi raggiunti dall’intelligenza artificiale generativa in molteplici ambiti, essa ha incontrato difficoltà nel cogliere le sfumature e nell’elaborare le complessità delle emozioni umane.
Typecast, una startup che utilizza l’intelligenza artificiale per creare voci e video sintetici, afferma di rivoluzionare questo settore attraverso la sua nuova tecnologia chiamata “Cross-Speaker Emotion Transfer”.
Questa innovativa tecnologia permette agli utenti di applicare le emozioni rilevate dalla voce di una persona a sé stessi, mantenendo comunque il proprio stile unico. Ciò rende possibile la creazione di contenuti in modo più rapido ed efficiente. Questa funzionalità è ora disponibile tramite la piattaforma “My Voice Maker” di Typecast.
“Attualmente, gli attori dell’intelligenza artificiale faticano ancora a catturare appieno la gamma emotiva degli esseri umani, il che rappresenta la loro principale limitazione”, ha affermato Taesu Kim, CEO e cofondatore di Neosapience e Typecast, con sede a Seoul, in Corea del Sud.
Grazie al nuovo Typecast Cross-Speaker Emotion Transfer, ora chiunque può utilizzare voci generate da intelligenza artificiale con una profondità emotiva reale, basandosi solo su un piccolo campione della propria voce.
Sebbene comunemente si associ le emozioni a sette categorie – felicità, tristezza, rabbia, paura, sorpresa e disgusto, basate sui movimenti facciali universali – questo non è sufficiente per esprimere l’ampia varietà di emozioni nel linguaggio parlato, come ha notato Kim.
Il linguaggio parlato non si limita a una semplice corrispondenza uno a uno tra il testo fornito e le parole pronunciate, ha sottolineato Kim. Gli esseri umani sono in grado di pronunciare la stessa frase in migliaia di modi diversi e di esprimere emozioni diverse all’interno della stessa frase o parola.
Ad esempio, dire la frase “Come puoi farmi questo?” con un tono triste e deluso è completamente diverso dall’esprimerla con rabbia e rimprovero.
Anche le emozioni complesse, come ad esempio “così triste per la morte di suo padre ma con un sorriso sul viso,” sono difficili da categorizzare in una singola categoria predefinita.
I ricercatori di Typecast hanno affrontato questa sfida sviluppando una tecnologia innovativa. Mentre la sintesi vocale emotiva ha fatto progressi notevoli, richiede una grande quantità di dati etichettati che spesso non sono facilmente reperibili.
Inoltre, registrare una vasta gamma di frasi per un lungo periodo, mantenendo costantemente le emozioni, rappresenta una sfida complessa. Nella sintesi vocale emotiva tradizionale, tutti i dati di addestramento devono essere etichettati emotivamente, il che può portare a errori e difficoltà nell’estrazione dell’intensità emotiva.
Il trasferimento delle emozioni tra diverse voci diventa ancor più complicato quando si tratta di emozioni invisibili assegnate a un determinato oratore. Fino ad oggi, le tecnologie in questo ambito hanno spesso prodotto risultati poco naturali, poiché il discorso emotivo veniva generato da un oratore neutro anziché da colui che originariamente lo aveva pronunciato. Inoltre, il controllo sull’intensità delle emozioni era spesso limitato.
Per affrontare questi problemi, i ricercatori hanno sviluppato un algoritmo di apprendimento non supervisionato in grado di riconoscere gli stili di linguaggio e le emozioni da un vasto database, senza la necessità di etichette emotive. Questo ha permesso di ottenere rappresentazioni significative dei diversi stili di discorso.
Ulteriormente, hanno addestrato una rete neurale di percezione per tradurre le descrizioni delle emozioni nel linguaggio naturale in rappresentazioni.
Grazie a questa tecnologia, gli utenti non devono registrare centinaia o migliaia di stili di discorso o emozioni diverse, ma possono imparare da un ampio database di voci emotive. La controllabilità è fondamentale per l’intelligenza artificiale generativa, soprattutto in un ambiente mediatico in costante evoluzione.
Oggi, i contenuti audio e video stanno diventando sempre più importanti, e la produzione rapida ed economica di voci espressive di alta qualità è essenziale. Typecast sta aiutando sia individui che aziende a liberare il loro potenziale creativo e migliorare la produttività attraverso queste tecnologie avanzate.