Krisp ha annunciato la disponibilità della propria Voice Translation API, una nuova interfaccia per sviluppatori che consente di integrare traduzione vocale speech-to-speech in tempo reale all’interno di applicazioni, piattaforme di customer experience, servizi di telemedicina, sistemi finanziari e altri ambienti che richiedono comunicazioni multilingue a bassa latenza. L’API espone la stessa tecnologia di traduzione già utilizzata nelle soluzioni enterprise dell’azienda e impiegata in oltre un milione di minuti di conversazioni reali elaborate in produzione.
Il sistema implementa una pipeline completa di elaborazione audio composta da riconoscimento vocale automatico, traduzione linguistica e sintesi vocale neurale. A differenza dei tradizionali servizi di traduzione testuale, l’input e l’output rimangono entrambi flussi audio continui. Il parlato viene acquisito in tempo reale, trascritto, tradotto e riconvertito immediatamente in voce sintetizzata nella lingua di destinazione, mantenendo la conversazione attiva senza interrompere il flusso del dialogo. L’intero processo è stato progettato per operare con latenza inferiore al secondo nelle comunicazioni bidirezionali.
Uno degli aspetti più rilevanti dell’annuncio riguarda l’affidabilità in scenari reali. Krisp dichiara che il motore è stato addestrato e validato su chiamate operative provenienti da ambienti enterprise piuttosto che esclusivamente su dataset di laboratorio. La piattaforma è stata testata su 30 lingue, sei differenti domini applicativi e centinaia di conversazioni reali, con particolare attenzione a contesti caratterizzati da rumore ambientale, accenti regionali, terminologia specialistica e qualità audio non ottimale. L’azienda riporta un livello di accuratezza pari al 96% nelle chiamate reali elaborate attraverso la propria infrastruttura.
La nuova API supporta 61 lingue con traduzione any-to-any, consentendo la conversione diretta tra qualsiasi coppia linguistica supportata senza passaggi intermedi. Per facilitare l’integrazione sono disponibili SDK ufficiali per Python e Node.js, mentre il supporto C++ è previsto nelle prossime versioni. L’infrastruttura è progettata per essere utilizzata sia in applicazioni web sia in sistemi di comunicazione in tempo reale basati su WebRTC e altre piattaforme di streaming audio.
Dal punto di vista operativo, la soluzione sfrutta anche le tecnologie proprietarie di elaborazione vocale sviluppate da Krisp negli ultimi anni. Prima che l’audio venga inviato al motore di traduzione, il sistema può applicare localmente algoritmi di noise cancellation e isolamento della voce per rimuovere rumori ambientali, voci secondarie e interferenze. Questa fase di pre-processing migliora la qualità del riconoscimento vocale e riduce la propagazione degli errori nelle successive fasi di traduzione e sintesi.
La piattaforma include inoltre il supporto a vocabolari personalizzati e dizionari specifici per settore. Questa funzionalità permette alle organizzazioni di adattare il motore a contesti specialistici come sanità, assicurazioni, servizi finanziari e customer support, nei quali la corretta interpretazione della terminologia tecnica rappresenta un requisito essenziale.
Con il rilascio della Voice Translation API, Krisp estende quindi la propria infrastruttura Voice AI oltre le soluzioni proprietarie di contact center, rendendo accessibile agli sviluppatori un sistema di traduzione vocale in tempo reale già utilizzato in ambienti produttivi. L’obiettivo è consentire la costruzione di applicazioni multilingue che possano operare direttamente sulla voce, senza richiedere interpreti umani o passaggi intermedi attraverso interfacce testuali.