Google ha presentato Gemini 3.5 Live Translate, un nuovo modello AI progettato specificamente per la traduzione vocale in tempo reale. A differenza dei tradizionali sistemi di interpretazione automatica, che attendono la conclusione della frase prima di produrre la traduzione, il nuovo modello elabora l’audio in streaming continuo e genera la voce tradotta mentre l’interlocutore sta ancora parlando, riducendo il ritardo a pochi secondi e rendendo la conversazione significativamente più fluida.
Il modello, identificato come “gemini-3.5-live-translate-preview”, è stato sviluppato come sistema specializzato per la traduzione simultanea e non come assistente AI general-purpose. L’architettura è ottimizzata esclusivamente per l’elaborazione audio in tempo reale e rinuncia deliberatamente a funzionalità normalmente presenti nei modelli conversazionali, come l’uso di strumenti esterni, il tool calling, l’analisi delle intenzioni dell’utente o la gestione avanzata dei turni di conversazione. Questa scelta consente di destinare l’intera capacità computazionale alla traduzione e alla riduzione della latenza.
Il sistema opera direttamente su flussi vocali continui senza attendere il completamento delle frasi. L’audio in ingresso viene elaborato progressivamente, consentendo al modello di iniziare la generazione della traduzione prima che l’oratore abbia terminato di esprimere il proprio pensiero. Questo approccio introduce una delle principali sfide dell’interpretazione simultanea automatica: trovare un equilibrio tra velocità di risposta e accuratezza contestuale. Un modello che attende più contesto può produrre traduzioni migliori, ma aumenta il ritardo; al contrario, una traduzione immediata riduce la latenza ma rischia di compromettere la qualità semantica. Gemini 3.5 Live Translate regola dinamicamente questo compromesso durante la conversazione, adattando il comportamento in funzione del contesto linguistico disponibile.
Una delle caratteristiche più avanzate del sistema riguarda la conservazione degli elementi prosodici della voce originale. Oltre a tradurre il contenuto semantico, il modello cerca di mantenere intonazione, ritmo, velocità di eloquio e tonalità del parlato sorgente, producendo una voce sintetizzata che preserva parte delle caratteristiche espressive dell’oratore. Questo approccio differisce dai tradizionali sistemi speech-to-speech, che spesso generano una voce standardizzata indipendente dalle caratteristiche della persona che sta parlando.
Il modello supporta oltre 70 lingue e integra funzionalità di rilevamento automatico della lingua senza richiedere configurazioni preventive da parte dell’utente. È inoltre progettato per operare in ambienti caratterizzati da rumore di fondo e condizioni audio non ideali, una caratteristica particolarmente importante per l’utilizzo in riunioni, contesti aziendali e conversazioni mobili.
Google distribuirà la tecnologia attraverso diversi canali. Gli sviluppatori possono già accedervi tramite Google AI Studio e l’API Gemini Live in anteprima pubblica, con la possibilità di definire le lingue di destinazione, ottenere trascrizioni testuali sia dell’audio originale sia della traduzione e configurare il comportamento del sistema nelle conversazioni multilingue. Le API consentono inoltre di gestire casi nei quali alcuni partecipanti parlano già nella lingua di destinazione, evitando traduzioni non necessarie.
L’integrazione con Google Meet rappresenta uno degli aspetti più rilevanti dell’annuncio. La piattaforma di videoconferenza passa infatti da cinque lingue supportate dalle precedenti funzionalità di traduzione a oltre settanta lingue, rendendo possibili più di 2.000 combinazioni linguistiche differenti. L’obiettivo è consentire a partecipanti provenienti da Paesi diversi di comunicare ciascuno nella propria lingua madre senza dover ricorrere all’inglese come lingua comune di lavoro.
Anche Google Traduttore riceve importanti aggiornamenti grazie all’integrazione del nuovo modello. Attraverso smartphone Android e iOS, gli utenti possono ascoltare traduzioni vocali continue tramite auricolari o cuffie, mentre sui dispositivi Android viene introdotta una nuova modalità di ascolto che permette di ricevere la traduzione semplicemente avvicinando il telefono all’orecchio, in modo simile a una normale chiamata telefonica. Questa modalità è stata progettata per garantire maggiore privacy durante le conversazioni in luoghi pubblici.
Per affrontare i rischi associati alla generazione di audio sintetico, Google ha inoltre confermato l’integrazione della tecnologia SynthID in tutte le voci generate dal sistema. La soluzione incorpora filigrane digitali invisibili direttamente nei segnali audio, consentendo di identificare i contenuti prodotti dall’intelligenza artificiale senza alterarne la qualità percepita dagli utenti. L’obiettivo è fornire un meccanismo di tracciabilità che possa contribuire a limitare utilizzi impropri e diffusione di contenuti vocali artificiali privi di identificazione.
