È stato scoperto un serio problema di “allucinazioni” nel sistema di trascrizione vocale di OpenAI, noto come “Whisper”, che è ampiamente utilizzato a livello globale.
Secondo quanto riportato dall’AP il 26 ottobre, Whisper, il modello di intelligenza artificiale che trasforma la voce in testo, ha mostrato una tendenza a “inventare” parti di testo o addirittura intere frasi. I ricercatori dell’Università del Michigan hanno rivelato di aver riscontrato allucinazioni in 8 trascrizioni audio su 10.
Inoltre, un ingegnere specializzato in apprendimento automatico ha analizzato più di 100 ore di trascrizioni generate da Whisper e ha trovato allucinazioni in oltre la metà di esse. Ci sono state segnalazioni che indicano allucinazioni in gran parte delle 26.000 trascrizioni prodotte con questo sistema.
Sebbene siano già emerse lamentele riguardo alle allucinazioni nell’IA generativa, sorprende che un problema simile si manifesti in un compito di trascrizione che dovrebbe seguire fedelmente il contenuto audio.
I ricercatori non sono certi delle cause di queste allucinazioni, ma hanno notato che tendono a verificarsi durante brevi pause o quando ci sono rumori di fondo o musica.
La preoccupazione cresce particolarmente con l’aumento dell’uso di strumenti basati su Whisper nel settore medico, dove errori di trascrizione potrebbero avere conseguenze gravi. Ad esempio, il sistema di trascrizione sviluppato da Navla negli Stati Uniti è attualmente utilizzato da oltre 30.000 medici e 40 sistemi sanitari, registrando circa 7 milioni di visite mediche. Un rappresentante di Navla ha dichiarato: “Sappiamo che Whisper soffre di allucinazioni e stiamo affrontando questo problema”.
In risposta a queste preoccupazioni, OpenAI ha affermato di essere costantemente al lavoro per migliorare l’accuratezza dei suoi modelli e per ridurre le allucinazioni. Inoltre, l’azienda ha dichiarato che, secondo la sua politica di utilizzo, vieta l’uso di Whisper in situazioni decisionali ad alto rischio.
Whisper è stato rilasciato come open source da OpenAI nel settembre 2022, con la versione 3 presentata al Dev Day nel novembre dello scorso anno, dopo la versione 2 rilasciata nel dicembre dello stesso anno.