Dopo aver presentato il suo nuovo modello di generazione di immagini DALL-E 3 la scorsa settimana, con supporto per la generazione di testo e tipografia, OpenAI sta attualmente lavorando per migliorare il suo rinomato chatbot AI, ChatGPT.
In un’inaspettata e sorprendente mossa, OpenAI ha annunciato che ChatGPT offrirà ora il supporto per i comandi vocali degli utenti e consentirà loro di caricare immagini.
Questa innovazione darà agli utenti la possibilità di avere conversazioni interattive con ChatGPT, simili all’interazione con assistenti virtuali come Amazon Alexa, Apple Siri o Google Assistant. Gli utenti potranno chiedere al chatbot di analizzare e rispondere a qualsiasi immagine che verrà caricata, ad esempio per tradurre testi presenti nell’immagine o identificare oggetti menzionati nel testo che accompagna l’immagine stessa.
L’input vocale sarà disponibile esclusivamente attraverso le app mobili di ChatGPT su Android e iOS, mentre l’input di immagini sarà accessibile sia tramite le app mobili che su desktop.
OpenAI ha dichiarato che queste nuove funzionalità sono state potenziate grazie ai suoi modelli proprietari di riconoscimento vocale, sintesi vocale e visione, e saranno rese disponibili per gli utenti ChatGPT Plus ed Enterprise nelle prossime due settimane. Gli altri gruppi di utenti, compresi gli sviluppatori, avranno accesso a queste funzionalità poco dopo.
In un recente post sul blog, OpenAI ha spiegato che le funzionalità di conversazione vocale permetteranno agli utenti di interagire con il chatbot semplicemente parlando ad alta voce. Gli utenti potranno selezionare una delle cinque opzioni vocali, esprimere la loro richiesta e il chatbot risponderà utilizzando la voce scelta. Ad esempio, potranno chiedere di ascoltare una storia prima di dormire o discutere di argomenti attuali durante un pasto.
OpenAI offre queste funzionalità grazie a modelli di sintesi vocale e sintesi in tempo reale, convertendo l’input vocale in testo, inserendolo nel modello sottostante LLM (Large Language Model) GPT-4 di OpenAI per ottenere una risposta e quindi riconvertendo il testo nella voce scelta dall’utente. L’azienda ha collaborato con doppiatori professionisti per creare voci sintetiche simili a quelle umane.
Va notato che Amazon sta lavorando in modo simile per migliorare il suo assistente digitale Alexa, utilizzando i Large Language Models per rendere le risposte dell’assistente più pertinenti e contestuali. Inoltre, Amazon ha recentemente annunciato un investimento di 4 miliardi di dollari in Anthropic, un concorrente di OpenAI noto per il chatbot Claude 2.
L’introduzione di queste funzionalità vocali e di immagini migliorerà notevolmente l’utilità di ChatGPT. Sorprendentemente, OpenAI ha deciso di implementare queste caratteristiche ora, anziché attendere il lancio dei futuri GPT-4.5 o GPT-5, che si prevede saranno ancora più potenti.
Nelle prossime due settimane, le funzionalità di input vocale e immagini saranno disponibili per gli utenti Enterprise e Plus di ChatGPT, il primo solo su dispositivi mobili, e il secondo su dispositivi mobili e desktop.
Questo aggiornamento arriva quasi un anno dopo il lancio iniziale di successo di ChatGPT e dimostra l’impegno di OpenAI a garantire un utilizzo responsabile del suo chatbot avanzato, rilasciando gradualmente nuove funzionalità per affinare la mitigazione dei rischi. OpenAI ha anche posto restrizioni per evitare abusi delle sue capacità di sintesi vocale e di analisi delle immagini, dimostrando un approccio attento alla privacy e alla sicurezza. Le nuove funzionalità saranno inoltre rese disponibili anche per gli utenti non paganti, anche se la tempistica precisa non è stata ancora condivisa.