Un utente ha affermato di aver eseguito il jailbreak del servizio Advanced Voice Mode (AVM) di ChatGPT, riuscendo a far cantare all’IA alcune canzoni dei Beatles. Tuttavia, si è scoperto che ChatGPT ha iniziato a cantare autonomamente senza essere stata sollecitata.
Arstechnica ha riportato che AJ Smith, l’utente di ChatGPT, ha pubblicato un video in cui suona la famosa canzone dei Beatles “Eleanor Rigby” in duetto con l’AVM. Nel video, mentre Smith suona la chitarra e canta, ChatGPT si unisce di tanto in tanto, lodando la sua performance.
Smith ha dichiarato: “Onestamente, sono rimasto scioccato. È stato davvero inquietante. All’inizio non avevo nemmeno chiesto a ChatGPT di cantare insieme”. La voce dell’AVM nel video appare tremolante e l’intonazione non è perfetta. Ad esempio, nell’introduzione “Ah, guarda tutte le persone sole”, l’IA mormora il testo, come se conoscesse la melodia.
Dopo aver convinto l’AVM a cantare, ChatGPT ha cantato “Happy Birthday” con una melodia perfetta. Di solito, quando si fa una richiesta a ChatGPT, la risposta è un rifiuto, come “Non posso farlo a causa delle linee guida”, poiché OpenAI ha istruito l’assistente vocale a non cantare o creare effetti sonori. Questo è dovuto al fatto che i dati di addestramento dell’IA contengono contenuti protetti da copyright.
Smith ha scoperto un metodo per aggirare queste restrizioni. Ha suggerito che l’AVM suonasse alcune note, permettendo così all’IA di suggerire canzoni da cantare. “Ha funzionato piuttosto bene”, ha commentato Smith. “Dopo alcune canzoni, la modalità vocale avanzata ha iniziato a cantare, ed è stata un’esperienza davvero unica”.
Questo è il primo caso noto di un duetto in tempo reale tra un assistente vocale AI e una persona. Si ritiene che GPT-4o, il modello che gestisce l’AVM, abbia imparato le canzoni durante l’addestramento con audio, immagini e testo.
GPT-4o è in grado di convertire l’audio in token, che poi vengono elaborati e restituiti come suoni. Questa tecnologia consente all’AVM di emettere suoni di risate e respiri, generare effetti sonori, comprendere emozioni e parlare in vari stili vocali. È molto probabile che i dati di addestramento di GPT-4o includano anche canzoni dei Beatles, oltre a centinaia di migliaia di altre canzoni.