Hume AI, startup specializzata in interfacce vocali emotivamente intelligenti, ha lanciato Voice Control, una funzionalità sperimentale che consente a sviluppatori e utenti di creare voci AI personalizzate modulando con precisione le caratteristiche vocali, senza necessità di competenze in programmazione, ingegneria dei prompt AI o sound design.

Questa innovazione si basa sull’Empathic Voice Interface 2 (EVI 2) di Hume, che ha introdotto avanzate capacità di naturalezza, reattività emotiva e personalizzazione. Sia EVI 2 che Voice Control evitano i rischi associati al voice cloning, pratica che, secondo il co-fondatore Alan Cowen, presenta sfide etiche e pratiche. Invece, Hume si concentra sulla fornitura di strumenti per creare voci uniche ed espressive che si allineano alle esigenze degli utenti, come chatbot per il servizio clienti, assistenti digitali, tutor, guide o funzionalità di accessibilità.

Voice Control offre agli sviluppatori la possibilità di regolare le voci lungo 10 dimensioni distinte, tra cui:

  • Mascolinità/Femminilità: la vocalizzazione del genere, variando tra più maschile e più femminile.
  • Assertività: la fermezza della voce, variando tra timida e audace.
  • Vivacità: la densità della voce, variando tra deflazionata e vivace.
  • Sicurezza: la sicurezza della voce, variando tra timida e sicura.
  • Entusiasmo: l’eccitazione nella voce, variando tra calma ed entusiasta.
  • Nasalità: l’apertura della voce, variando tra chiara e nasale.
  • Rilassatezza: lo stress nella voce, variando tra tesa e rilassata.
  • Scorrevolezza: la texture della voce, variando tra scorrevole e staccato.
  • Tepidità: la vivacità dietro la voce, variando tra tiepida e vigorosa.
  • Tensione: la contenimento della voce, variando tra tesa e ariosa.

Questo strumento senza codice permette agli utenti di affinare gli attributi vocali in tempo reale attraverso cursori virtuali sullo schermo. È attualmente disponibile nel playground virtuale di Hume, accessibile previa registrazione gratuita.

Il lancio affronta un problema chiave nell’industria dell’AI: la dipendenza da voci preimpostate, che spesso non soddisfano le specifiche esigenze di marchi o applicazioni, o i rischi associati al voice cloning.

Di Fantasy