Google ha recentemente introdotto un nuovo modello linguistico che va oltre la comprensione del parlato, consentendo anche la traduzione in tempo reale in un’altra lingua. Questa tecnologia è ancora in fase di ricerca e non è stato ancora confermato se verrà integrata con servizi esistenti come Google Translate o applicata ad altri prodotti o applicazioni di servizio. Tuttavia, è interessante notare che Google ha sviluppato un’architettura multimodale che può elaborare e generare sia testo che voce.
Il decodificatore di questo modello utilizza il modello LLM (Large Language Model) basato su testo di Google chiamato “PaLM 2” insieme a un modello di generazione audio chiamato “AudioLM”. Si è riportato che l’LLM chiamato “AudioPaLM” è stato annunciato il 24 giugno (ora locale).
Audiofarm è un sistema che integra diverse attività come la trascrizione vocale, la sintesi vocale e la traduzione vocale, che tradizionalmente richiedono l’addestramento di modelli separati. Queste funzionalità sono state combinate in un’unica architettura. Per fare ciò, la matrice di incorporamento del testo pre-addestrata di LLM chiamata “Farm 2” è stata combinata con la matrice di incorporamento del parlato al fine di apprendere le espressioni di incorporamento comuni a entrambe le forme di input.
Il modello decodifica i token di testo o audio alimentando una sequenza mista di token, combinando gli input di testo e audio in un nuovo set di token, e utilizza un trasformatore specifico del decodificatore. I token vocali vengono poi convertiti in voce nella fase audio LM.
Grazie all’integrazione di AudioLM, Audiofarm è in grado di produrre audio coerente e di alta qualità a lungo termine. AudioLM è in grado di prevedere il suono successivo in base al suono in ingresso per alcuni secondi, preservando la rima e l’intonazione originali della persona che parla.
Questo processo è simile a come modelli linguistici come GPT-3 prevedono le frasi e le parole che sono frequentemente collegate. AudioLM impara quali tipi di frammenti sonori si verificano spesso insieme e utilizza questo processo inverso per creare frasi.
Un vantaggio di questa tecnologia è la capacità di preservare le informazioni quasi linguistiche della voce originale che non sono facilmente traducibili in testo, come le risate, le pause e le esclamazioni, che i sistemi di sintesi vocale esistenti non possono riprodurre.
Secondo quanto dichiarato da Google, Audiofarm è estremamente abile nell’elaborare e generare testo e parlato con alta fedeltà, sfruttando l’esperienza linguistica di Palm 2 e le capacità di conservazione delle informazioni quasi linguistiche di AudioLM. Ciò si traduce in risultati migliori nella traduzione vocale automatica e nella sintesi vocale. Questo modello di IA multimodale rappresenta un notevole passo avanti nella ricerca sull’IA multimodale.