La startup di intelligenza artificiale smallest.ai, con sede a San Francisco e fondata dagli ex studenti dell’IIT Guwahati Sudarshan Kamath e Akshat Mandloi, ha recentemente presentato Lightning, un modello di sintesi vocale (Text-to-Speech, TTS) progettato per generare fino a 10 secondi di audio in soli 100 millisecondi. Questa innovazione mira a rivoluzionare il settore dei voicebot, offrendo una soluzione altamente realistica con una latenza inferiore al secondo, semplificando l’implementazione e riducendo significativamente i costi.

Caratteristiche principali di Lightning:

  • Velocità e latenza: Lightning è in grado di produrre audio in circa 100 millisecondi, rendendolo ideale per applicazioni in tempo reale come i voicebot.
  • Supporto linguistico: Attualmente, il modello supporta l’inglese e l’hindi in vari accenti, con piani per l’espansione a ulteriori lingue indiane, europee e asiatiche nei prossimi mesi.
  • Costo accessibile: Con un prezzo di circa 0,02 dollari (circa 1,6 rupie) al minuto, Lightning offre una soluzione economica, permettendo alle applicazioni di funzionare a meno di 1 rupia al minuto, riducendo drasticamente le spese per gli sviluppatori di voicebot.

A differenza dei modelli TTS tradizionali che spesso richiedono streaming continuo e connessioni web socket, aumentando la domanda sui server e complicando la scalabilità, Lightning opera attraverso una semplice API REST. Questo approccio fornisce audio in circa 100 millisecondi senza l’onere associato allo streaming continuo, facilitando l’integrazione e migliorando l’efficienza operativa.

Gli sviluppatori che hanno avuto accesso anticipato a Lightning hanno riportato una riduzione dei costi operativi fino a otto volte, accompagnata da un miglioramento della qualità audio. Oltre alle applicazioni in tempo reale come i voicebot, Lightning è adatto per la creazione di audiolibri e voiceover per contenuti sui social media su piattaforme come Instagram e YouTube.

Per coloro che non sono sviluppatori, Lightning è accessibile tramite la piattaforma Waves Speech, che offre funzionalità aggiuntive, tra cui il clonaggio vocale e la conversione degli accenti, attualmente disponibili in versione beta.

Kamath attribuisce l’accessibilità economica di smallest.ai alla loro attenzione alla qualità dei dati e all’efficienza del modello. “Il nostro modello è molto più piccolo rispetto a quelli dei concorrenti come ElevenLabs. Nonostante ciò, otteniamo una sintesi vocale di alta qualità grazie alla raffinata qualità dei nostri dati”, ha spiegato.

In precedenza, a giugno, smallest.ai aveva lanciato AWAAZ, un modello TTS che consente il clonaggio vocale da brevi clip audio ed è disponibile a tariffe competitive. Il modello è destinato ad applicazioni scalabili nei mercati delle lingue regionali e offre sicurezza e conformità di livello enterprise.

Di Fantasy