La startup Cartesia, fondata da ex studenti della Stanford University, ha recentemente lanciato “Sonic”, un modello di intelligenza artificiale progettato per replicare e generare voci umane con elevata fedeltà. Questo sviluppo rappresenta un significativo passo avanti nel campo della sintesi vocale, grazie all’adozione dell’architettura Mamba, una soluzione innovativa che supera le limitazioni dei tradizionali modelli Transformer.
I modelli Transformer, alla base di molti sistemi di intelligenza artificiale contemporanei, operano memorizzando le informazioni elaborate in uno “stato nascosto” (hidden state). Questo approccio, sebbene potente, comporta inefficienze significative. Ogni volta che il modello processa un nuovo dato, deve rivedere l’intero stato nascosto, aumentando esponenzialmente il carico computazionale e rallentando l’elaborazione, specialmente con sequenze di dati estese.
Per affrontare queste sfide, è stata sviluppata l’architettura Mamba, basata sui Modelli di Stato Sequenziale (SSM). Mamba sintetizza i dati precedenti in una forma compressa, aggiornando lo stato nascosto con l’arrivo di nuove informazioni e scartando quelle meno rilevanti. Questo consente al modello di focalizzarsi sugli elementi essenziali, migliorando l’efficienza nel trattamento di sequenze di dati lunghe senza richiedere risorse computazionali aggiuntive.
Utilizzando l’architettura Mamba, Sonic è in grado di generare voci con una latenza inferiore a 90 millisecondi, posizionandosi tra i modelli di sintesi vocale più rapidi attualmente disponibili. Questa velocità è particolarmente vantaggiosa per applicazioni che richiedono risposte vocali in tempo reale, come assistenti virtuali e sistemi di risposta automatica.
Sonic è accessibile tramite API e una piattaforma web dedicata. Gli utenti possono usufruire di un piano gratuito che consente fino a 100.000 caratteri di input vocale. Per esigenze superiori, sono disponibili abbonamenti premium, con il piano più avanzato a 299 dollari al mese, offrendo oltre 8 milioni di caratteri.
Dalla sua introduzione nel 2023 da parte di ricercatori della Carnegie Mellon University e della Princeton University, l’architettura Mamba ha guadagnato crescente attenzione. Aziende come Mistral AI in Francia e AI21 in Israele hanno adottato Mamba per sviluppare modelli avanzati, evidenziando la sua versatilità e potenziale nel migliorare le prestazioni dei sistemi di intelligenza artificiale.