OpenAI ha annunciato il lancio di tre nuovi modelli di intelligenza artificiale vocale: gpt-4o-transcribe, gpt-4o-mini-transcribe e gpt-4o-mini-tts. Questi modelli sono ora disponibili tramite l’API di OpenAI, permettendo agli sviluppatori di integrare funzionalità vocali avanzate nelle loro applicazioni testuali esistenti in modo rapido ed efficiente.

I nuovi modelli rappresentano un’evoluzione del già potente GPT-4o, lanciato nel maggio 2024, che attualmente alimenta l’esperienza testuale e vocale di ChatGPT per molti utenti. OpenAI ha ulteriormente addestrato GPT-4o con dati aggiuntivi per ottimizzarne le capacità di trascrizione e sintesi vocale. Questo aggiornamento offre tassi di errore ridotti nelle trascrizioni e prestazioni migliorate in ambienti rumorosi, con accenti diversi e a velocità di parola variabili, supportando oltre 100 lingue.

Una delle caratteristiche distintive del modello gpt-4o-mini-tts è la possibilità di personalizzare le voci sintetizzate. Gli utenti possono modificare accenti, intonazione, tono e altre qualità vocali tramite semplici prompt testuali, permettendo all’IA di esprimere emozioni specifiche come richiesto. Durante una dimostrazione, un membro del team tecnico di OpenAI ha mostrato come, utilizzando solo testo sul sito demo, sia possibile far suonare la stessa voce come un folle scienziato ridanciano o come un calmo insegnante di yoga zen.

Per consentire agli utenti di sperimentare queste nuove funzionalità, OpenAI ha lanciato un sito demo personalizzato, OpenAI.fm, accessibile per test limitati e per scopi ludici. Questo permette agli sviluppatori e agli utenti finali di esplorare le potenzialità dei nuovi modelli vocali in scenari reali, facilitando l’adozione e l’integrazione nelle applicazioni esistenti.

Di Fantasy