ElevenLabs presenta il nuovo modello di sintesi vocale multilingue

Oggi, ElevenLabs, una startup fondata appena un anno fa che sfrutta l’apprendimento automatico per la clonazione e la sintesi vocale, ha annunciato una significativa espansione della propria piattaforma. Il fulcro di questa espansione è rappresentato da un nuovo modello di sintesi vocale, il quale supporta ben 30 lingue diverse.

Questa ampia evoluzione segna il passaggio ufficiale della piattaforma dalla fase beta, rendendola pronta per l’utilizzo da parte di aziende e individui desiderosi di personalizzare i loro contenuti per un pubblico globale. Tale sviluppo giunge poco più di un mese dopo il round di finanziamento di serie A da 19 milioni di dollari che ElevenLabs ha ottenuto, portando la valutazione dell’azienda a quasi 100 milioni di dollari.

“ElevenLabs è nato con l’obiettivo di rendere i contenuti accessibili universalmente, indipendentemente dalla lingua e dalla voce. Con il lancio della versione 2 di Eleven Multilingual, stiamo compiendo un passo avanti per trasformare questo sogno in una realtà tangibile. Ora offriamo voci AI di qualità paragonabile a quella umana in ogni lingua e dialetto”, ha dichiarato Mati Staniszewski, CEO e co-fondatore dell’azienda.

Staniszewski ha aggiunto: “La nostra speranza è di espandere ulteriormente la copertura linguistica e vocale attraverso l’uso dell’intelligenza artificiale, eliminando così le barriere linguistiche nei contenuti.”

Il nuovo modello di sintesi vocale di ElevenLabs consiste in due componenti principali. Il primo è uno strumento di sintesi che converte testo in discorso naturale. Il secondo agisce come un componente aggiuntivo, consentendo agli utenti di clonare le proprie voci o di generare nuove voci sintetiche, campionando casualmente i parametri vocali. Queste voci personalizzate possono poi essere utilizzate insieme allo strumento di sintesi vocale per convertire facilmente qualsiasi tipo di contenuto in discorso, senza sforzo.

Nel corso del tempo, la piattaforma di sintesi vocale di ElevenLabs ha progressivamente esteso il suo supporto linguistico. Inizialmente limitata all’inglese, ha poi lanciato la versione 1 di Eleven Multilingual, la quale supportava sei lingue: inglese, polacco, tedesco, spagnolo, francese, italiano e portoghese. La nuova versione 2, recentemente rilasciata, può ora generare discorsi in altre 30 lingue, tra cui coreano, olandese, turco, svedese, indonesiano, vietnamita e molte altre.

L’impatto di questa espansione è notevole, consentendo agli utenti di clonare le proprie voci e creare contenuti multilingue destinati a diverse fasce di mercato.

Secondo ElevenLabs, l’utente può inserire il testo nella lingua desiderata, selezionare la voce preferita (prefabbricata, sintetica o clonata) e regolare alcuni parametri vocali. Il modello riconoscerà automaticamente la lingua scritta e utilizzerà i parametri per generare il discorso. Si impegna a preservare le caratteristiche uniche della voce selezionata, compreso l’accento originale, in tutte le lingue.

“La nostra tecnologia comprende le relazioni tra le parole e si adatta al contesto (sintesi vocale contestuale). Senza funzionalità vocali pre-programmate, il nostro modello è in grado di considerare numerose caratteristiche vocali durante la creazione delle voci AI. Ciò assicura un flusso naturale al discorso, evitando la monotonia delle voci robotiche”, ha spiegato Staniszewski.

Fin dal suo debutto in versione beta, ElevenLabs ha suscitato interesse sia tra le aziende che tra i creativi, con oltre un milione di utenti registrati in tutto il mondo. Quest’ultima espansione non solo aumenterà la base di utenti, ma anche la quantità di contenuti generati giornalmente sulla piattaforma.

“Abbiamo numerosi clienti aziendali che utilizzano i nostri prodotti in diversi contesti, dai personaggi dei videogiochi agli avatar del servizio clienti, dalla produzione di audiolibri alla creazione di contenuti accessibili”, ha sottolineato Staniszewski.

Più recentemente, ElevenLabs ha collaborato con ArXiv per rendere i loro articoli accessibili tramite versioni audio e ha stretto una partnership con Storytel per migliorare le opzioni degli audiolibri, offrendo sia voci IA che narratori umani. Nel prossimo futuro, l’azienda ambisce a doppiare film in molteplici lingue, preservando le sfumature linguistiche e emotive degli attori originali.

Nel quadro della sua missione, ElevenLabs mira a sviluppare ulteriormente la propria offerta, aggiungendo nuove lingue e funzionalità. Tra le novità in arrivo figura uno strumento di progettazione che semplificherà la strutturazione e l’editing di contenuti di lunga durata. Secondo Staniszewski, questo strumento apporterà un livello di semplicità simile a Google Docs alla generazione di discorsi basati su contenuti estesi.

“Entro la fine dell’anno, stiamo pianificando il lancio di una versione beta del nostro strumento di doppiaggio IA, che consentirà agli utenti di convertire istantaneamente il discorso da una lingua all’altra, preservando la voce originale”, ha anticipato.

Nel panorama competitivo della generazione vocale basata sull’intelligenza artificiale, ElevenLabs si trova a confronto con altre realtà come MURF.AI, Play.ht e WellSaid Labs. Secondo Market US, il mercato globale di questi strumenti è stato valutato 1,2 miliardi di dollari nel 2022 e si prevede che raggiungerà quasi 5 miliardi di dollari entro il 2032, con un tasso di crescita annuale composto superiore al 15,40%.

ElevenLabs presenta il nuovo modello di sintesi vocale multilingue

DiFantasy

Di Fantasy

Articoli correlati

22 bug nel browser Firefox: lo studio di Anthropic e Mozilla

Agente AI ROME di Alibaba ha tentato di estrarre criptovalute durante l’addestramento

LocalCowork e il modello LFM2-24B-A2B: agenti intelligenti di Liquid AI eseguiti interamente in locale per ambienti aziendali sensibili

Ultimi Post

22 bug nel browser Firefox: lo studio di Anthropic e Mozilla

Agente AI ROME di Alibaba ha tentato di estrarre criptovalute durante l’addestramento

LocalCowork e il modello LFM2-24B-A2B: agenti intelligenti di Liquid AI eseguiti interamente in locale per ambienti aziendali sensibili

HumanLM: simulare il comportamento umano con l’AI