Typecast, la startup che gestisce il servizio di attori virtuali basato sull’intelligenza artificiale, ha presentato la loro ultima meraviglia di sintesi vocale, il Cross-speaker Emotion Transfer, che permette di applicare le emozioni di una voce a un’altra. Pensate a un tipo di mix and match vocale, dove puoi prendere la gioia di una persona e infilarla nella tua voce!
Basandosi sul lavoro dei loro ricercatori e sulla loro esclusiva capacità di controllare lo stile emotivo, questa innovazione è stata dettagliata nel loro documento accettato dalla IEEE International Conference on Acoustics, Speech, and Signal Processing. È come avere un superpotere vocale!
La tecnologia sarà disponibile esclusivamente per i consumatori tramite Typecast, che ha anche lanciato la funzione My Voice Maker. Con questa funzione, gli utenti possono clonare le proprie voci con dati minimi, rendendo la nuova tecnologia personalizzata per le esigenze dei consumatori.
Taesu Kim, co-fondatore e CEO di Typecast, afferma che gli attori AI sono il futuro della creazione di contenuti, velocizzando i tempi di produzione e riducendo i costi. Ma c’è un ma: fino ad ora, gli attori AI hanno avuto difficoltà a catturare la gamma emotiva umana. E qui entra in gioco il Cross-speaker Emotion Transfer!
Tradizionalmente, per abilitare gli attori AI, tutti i dati di addestramento dovevano essere etichettati emotivamente, un processo difficile e soggetto a errori. Ma Typecast ha scovato una soluzione geniale: con il loro approccio innovativo, ora è possibile ottenere un trasferimento emotivo con grande naturalezza e somiglianza emotiva, senza cambiare l’identità del parlante.
Questa tecnologia rivoluzionaria ha infranto i limiti dell’espressione emotiva. Analizzando grandi quantità di dati, come audiolibri e altre risorse, gli algoritmi AI imparano a comprendere una vasta gamma di espressioni emotive.
L’aspetto più notevole? La capacità di preservare l’identità unica del parlante target. Con Cross-Speaker Emotion Transfer, le persone possono infondere nelle loro voci diversi stili emotivi pur mantenendo il loro suono autentico.
Con l’uso dei big data, Typecast addestra i suoi modelli AI per analizzare e comprendere modelli, toni e inflessioni emotive, permettendo all’AI di emulare e trasferire accuratamente le emozioni. Il risultato? Un’espressione emotiva altamente personalizzata che sembra naturale e genuina.
Grazie a My Voice Maker, gli utenti possono selezionare vari tipi di discorsi emotivi registrati da qualcun altro e applicare quello stile emotivo alla propria voce. Anche con solo cinque minuti di registrazione della propria voce, gli utenti possono esprimere un’ampia gamma di emozioni.
Immaginate un famoso doppiatore che registra un singolo tono della sua voce. Con questa tecnologia, Typecast può trasferire le emozioni di qualcun altro su di essa, dando vita a una sceneggiatura con un minimo sforzo da parte dell’attore. In breve, Typecast sta ridefinendo il futuro della voce e dell’espressione emotiva.