La startup di media sintetici D-ID ha sviluppato un’app Web chiamata chat.D-ID che utilizza la tecnologia text-to-video per creare un aspetto umano digitale realistico che accompagna le conversazioni del chatbot di intelligenza artificiale generativa ChatGPT. Grazie a questa tecnologia, le risposte di ChatGPT vengono convertite in voce e il volto sintetico di D-ID rende possibile una conversazione faccia a faccia, aprendo nuove possibilità di interazione con il popolare motore di conversazione di OpenAI.
L’API di ChatGPT funge da cervello di chat.D-ID, mentre la tecnologia text-to-video di D-ID fornisce i componenti audio e visivi dell’umano sintetico fotorealistico. Questo sistema è particolarmente utile per le persone che non possono vedere il testo scritto o che preferiscono un approccio più umano alla conversazione. L’app Web è ancora in versione beta e attualmente ha solo un singolo volto e voce sintetici chiamati “Alice”. Tuttavia, D-ID prevede di aggiungere altri personaggi digitali in futuro e consentirà agli utenti di caricare la propria immagine come volto personale di ChatGPT.
Secondo il CEO di D-ID, Gil Perry, la tecnologia di chat.D-ID “sblocca un lato dell’intelligenza artificiale che il mondo non ha mai visto prima”. La possibilità di passare dall’interfaccia testuale al parlare faccia a faccia rende l’esperienza di conversazione con l’intelligenza artificiale più coinvolgente e accessibile a un pubblico più ampio, inclusi bambini, anziani, persone con disabilità e molte altre persone in tutto il mondo al di là della comunità tecnologica.
D-ID ha rilasciato l’app Web chat.D-ID dopo aver introdotto la nuova API di chat per lo streaming in tempo reale con strumenti di intelligenza artificiale generativa, che fa parte del Creative Reality Studio dell’azienda. Grazie a questa API, i clienti possono progettare i propri avatar video sulla base di fotografie caricate o di immagini generate sinteticamente prodotte dal motore di testo in immagine di Stable Diffusion. L’avatar può eseguire uno script scritto dall’utente o composto dal generatore di testo GPT-3 di OpenAI. Inoltre, l’API di chat apre le porte alle interazioni in tempo reale utilizzando le risposte trasmesse in streaming dai chatbot di intelligenza artificiale generativa.