Tra l’hype di ChatGPT, OpenAI rilascia silenziosamente la seconda versione di Whisper
Questo nuovo modello è addestrato per più EPOCH con regolarizzazione e mostra prestazioni migliorate rispetto alla versione precedente.
 
Mentre ChatGPT (basato sull’architettura GPT-3.5) continua a fare scalpore in tutto il mondo, OpenAI ha lanciato sottilmente la seconda versione di Whisper , un modello di riconoscimento vocale multilingue open source. 

Questo nuovo modello è addestrato per più EPOCH con regolarizzazione e mostra prestazioni migliorate rispetto alla versione precedente. Tuttavia, ha la stessa architettura del modello originale di grandi dimensioni. Il team ha detto che presto aggiornerà il suo documento di ricerca. 

 

A ottobre, la società di ricerca e sviluppo AI, OpenAI ha rilasciato Whisper, che potrebbe tradurre e trascrivere discorsi da 97 lingue diverse. Whisper è addestrato su oltre 680.000 ore di dati multilingue raccolti dal web. Tuttavia, il set di dati di addestramento per Whisper era stato mantenuto privato. 

Poiché la prima versione di Whisper è stata addestrata utilizzando un set di dati relativamente più ampio e diversificato. Non è stato ottimizzato per un set di dati specifico, a causa del quale non ha superato altri modelli specializzati attorno al benchmark delle prestazioni di LibriSpeech , uno dei parametri più noti per giudicare il riconoscimento  vocale .

OpenAI nel suo blog ha dichiarato di sperare che Whisper serva da base per la creazione di applicazioni utili e per ulteriori ricerche su una solida elaborazione vocale.

Attualmente, l’azienda sta sperimentando varie offerte. Ciò include DALL.E 2 che può produrre arte dal testo, l’ultimo ChatGPT o persino il tanto atteso GPT 4 . Tuttavia, l’utilizzo di Whisper solo per tradurre e trascrivere l’audio significa sottoutilizzare l’ambito per fare molto di più. 

Sfide 
Tra le principali sfide c’è il fatto che il laptop dell’utente non è abbastanza potente rispetto a quelli utilizzati per i servizi di trascrizione professionale. In secondo luogo, l’installazione del modello non è molto intuitiva. Un altro svantaggio è che la previsione è spesso distorta rispetto a timestamp interi. 

Gli utenti hanno osservato che quelli tendono ad essere meno accurati; offuscare la distribuzione prevista può aiutare, ma nessuno studio conclusivo è stato ancora fatto.

Potenziale rischio 
Mentre ci sono una serie di vantaggi nell’utilizzo del modello, ci sono anche potenziali rischi e svantaggi. 

Su GitHub, nella sezione “Implicazioni più ampie” della scheda modello , OpenAI avverte che potrebbe essere utilizzato per automatizzare la sorveglianza o identificare singoli oratori in una conversazione, ma l’azienda spera che venga utilizzato “principalmente per scopi benefici”.

Di ihal