Gli sviluppatori di giochi guardano all’intelligenza artificiale vocale per nuove opportunità creative
La tecnologia di sintesi del suono, in particolare la sintesi vocale, è diventata molto più sofisticata negli ultimi anni. Sebbene la tecnologia di sintesi vocale sia in circolazione da decenni, la tecnologia è diventata molto più naturale. Gli algoritmi recenti possono richiedere solo poche ore di audio e sintetizzare campioni audio altamente realistici. Con l’avanzare della tecnologia, si aprono più applicazioni, comprese le possibilità nei media creativi. Recentemente, come riportato da VentureBeat , le società di videogiochi hanno iniziato a indagare sull’uso della generazione vocale AI per produrre dialoghi per i videogiochi.
Una società, Leviathan Games , ha iniziato a implementare l’intelligenza artificiale vocale all’interno dei giochi che stanno attualmente sviluppando. Wyeth Ridgway, il proprietario di Leviathan Games, ha spiegato che l’IA vocale potrebbe cambiare il design del gioco in modi drammatici. Ridgway ha spiegato che l’uso dell’IA vocale nella progettazione di giochi è una tendenza emergente e l’ha confrontata con il cambiamento del software di animazione 3D nel corso dell’ultimo decennio, con aziende come Pixar che hanno creato software proprietario destinato a facilitare l’animazione e la modellazione.
I metodi tradizionali di generazione del parlato funzionano aggiungendo file audio preregistrati insieme al volo, unendo insieme frasi da parole e frasi già esistenti. Questo metodo di generazione del parlato richiede la registrazione di centinaia di ore di dialoghi e l’etichettatura manuale dei clip audio. Suona anche un po ‘innaturale poiché l’inflessione e l’enfasi tendono a spostarsi tra le parole. In confronto, l’intelligenza artificiale vocale all’avanguardia suona molto più naturale e opera in modo diverso.
Voice AI si basa su reti neurali profonde. WaveNet è stata una delle prime AI in grado di generare campioni audio convincenti e dal suono naturale. Poiché i campioni sonori vengono generati da zero, non è necessario pre-registrare centinaia di ore di dialogo, a condizione che siano disponibili dati di formazione sufficienti. GAN ottimizzati e modelli LSTM possono generare audio dopo essere stati addestrati solo su poche ore di audio etichettato. I risultati possono essere straordinariamente convincenti, come quando l’esperimento Duplex di Google ha chiamato un parrucchiere per fissare un appuntamento.
Man mano che queste tecnologie diventano più potenti, standardizzate e facilmente accessibili tramite il cloud computing, è probabile che un maggior numero di sviluppatori di giochi si rivolgerà all’IA vocale per ridurre i tempi e i costi di produzione. Alcune aziende stanno già creando modelli che possono essere potenzialmente utilizzati dagli sviluppatori di giochi. Replica Studios è specializzato nella tecnologia vocale AI e alcuni campioni audio generati dalla loro tecnologia possono essere ascoltati ai collegamenti qui e qui .
È improbabile che gli sviluppatori di giochi scelgano di rinunciare all’uso di doppiatori rispetto all’IA. In effetti, l’intelligenza artificiale vocale potrebbe aprire maggiori opportunità per i doppiatori. Attualmente, molte società di sviluppo di giochi spesso saltano il dialogo con la voce a causa dell’investimento di tempo e dei costi associati alla creazione del dialogo con la voce. I doppiatori spesso devono essere portati indietro per più sessioni di registrazione se ci sono modifiche alla sceneggiatura o se i registi vogliono un diverso tipo di performance. L’intelligenza artificiale vocale potrebbe essere utilizzata per sperimentare / prototipare il dialogo, per avere un’idea del tipo di modifiche e revisioni della sceneggiatura da apportare prima di chiamare un doppiatore professionista per registrare la sceneggiatura. Ciò potrebbe portare più aziende ad avere le risorse per investire nella creazione di un dialogo espresso.
I modelli vocali dell’IA potrebbero persino essere addestrati sulla voce di un doppiatore specifico e l’IA utilizzata per generare banali clip di dialogo, a condizione che l’attore sia pagato per l’uso della propria voce. Come riportato da VentureBeat , doppiatori come Simon J. Smith, sono ottimisti riguardo al crescente utilizzo di modelli di AI vocale e al loro potenziale per aprire nuove opportunità di recitazione vocale.
Oltre all’uso dell’IA vocale per prototipare script o creare linee sonore per personaggi minori, gli sviluppatori di giochi potrebbero anche usare l’IA vocale per offrire ai giocatori più opzioni di personalizzazione per i videogiochi di ruolo. Attualmente, anche i giochi che consentono ai giocatori di scegliere una voce per i loro avatar hanno in genere solo una manciata di opzioni. Con l’uso dell’IA vocale, le opzioni potrebbero essere funzionalmente illimitate.