La startup D-ID, specializzata in media sintetici, sta ampliando l’ambito dei video generati dall’intelligenza artificiale all’interno del suo Creative Reality Studio. Questa espansione avverrà attraverso l’integrazione delle voci originali sviluppate dalla startup di sintesi vocale generativa ElevenLabs. Gli utenti avranno l’opportunità di arricchire i loro video con le espressive voci di ElevenLabs, le quali potranno essere sincronizzate con gli avatar animati e le immagini generate dal motore di intelligenza artificiale proprietario di D-ID.
Il Creative Reality Studio di D-ID offre agli utenti la capacità di creare avatar video basati su foto caricate o immagini generate sinteticamente attraverso il motore text-to-image di Stable Diffusion. Questi avatar sono poi abbinati a uno script creato dall’utente oppure generato da un modello di linguaggio avanzato di OpenAI. Nonostante gli utenti siano già in grado di selezionare lingua, voce e stile di comunicazione, l’aggiunta dell’audio di ElevenLabs permetterà un livello di realismo superiore nelle performance vocali, rendendo possibile la trasmissione di emozioni e personalità in sintonia con le immagini. Questo rappresenta un passo significativo rispetto alla sintesi vocale predefinita, contribuendo così a valorizzare la produzione di contenuti per i creatori.
Gil Perry, CEO di D-ID, ha commentato entusiasticamente la collaborazione con ElevenLabs: “Siamo felici di unire le forze con ElevenLabs, in modo da fornire alla comunità di creatori strumenti avanzati per sfruttare al meglio l’intelligenza artificiale generativa. Con un nuovo iscritto al nostro studio ogni due secondi, abbiamo visto nascere video creativi e stimolanti. Grazie alla nostra partnership con ElevenLabs, i nostri utenti avranno un accesso agevolato a voci di qualità superiore”.
La startup ElevenLabs, specializzata in intelligenza artificiale vocale sintetica, utilizza modelli vocali generativi creati da zero o clonati da voci esistenti, utilizzando campioni vocali limitati per dare vita agli avatar digitali. Con un finanziamento di 19 milioni di dollari raccolto a giugno, ElevenLabs ha lanciato uno strumento per perfezionare i suoi modelli vocali sintetici. La partnership con D-ID si aggiunge all’elenco in continua crescita di collaborazioni di ElevenLabs, che comprende anche il publisher di audiolibri Storytel, l’entità di contenuti digitali TheSoul Publishing, oltre alle aziende di sviluppo di giochi Embark Studios e Paradox Interactive.
Il CEO di ElevenLabs, Mati Staniszewski, ha condiviso il suo entusiasmo riguardo a questa partnership: “Siamo emozionati di entrare a far parte di un leader nel campo della conversione da testo a video, come D-ID. Molti dei nostri clienti utilizzano le nostre voci per dare vita a avatar digitali e personaggi. La collaborazione con D-ID rappresenta un passo naturale e risponde alla richiesta da parte degli utenti di combinare la nostra tecnologia vocale all’avanguardia con la rinomata tecnologia di conversione da testo a video offerta da D-ID”.