Il Transfer Learning ha avuto un ruolo fondamentale nel progresso dell’elaborazione audio e nell’abilitazione delle tecniche di Self-Supervised Learning e Zero-Shot Learning. Tuttavia, i modelli attuali non riescono ancora a generare linguaggio per attività a tempo indeterminato come sottotitoli audio o domande e risposte audio. Per affrontare questa limitazione, i ricercatori di Microsoft hanno introdotto Pengi, un innovativo modello di linguaggio audio che adotta il Transfer Learning per convertire tutte le attività audio in generazione di testo.
Pengi integra input audio e di testo per generare output in forma di testo libero, senza richiedere ulteriori personalizzazioni. Ampie valutazioni coinvolgenti 22 attività diverse dimostrano le prestazioni all’avanguardia di Pengi, evidenziando i notevoli progressi raggiunti nell’elaborazione audio generale attraverso l’integrazione di modelli linguistici e audio.
Il modello di linguaggio audio di Pengi tratta tutte le attività legate all’audio come attività di generazione di testo. Funziona prendendo in input una registrazione audio e il testo associato, per poi produrre un testo libero come output. L’architettura unificata di Pengi permette di gestire compiti a tempo determinato e a tempo indeterminato senza richiedere ulteriori personalizzazioni o estensioni specifiche per ogni compito.
Durante il processo di addestramento, Pengi viene esposto a un ampio set di dati contenente coppie audio-testo. Questo set comprende diverse registrazioni audio contenenti linguaggio umano, musica e vari suoni, insieme alle relative trascrizioni di testo. Le registrazioni audio vengono elaborate da un codificatore audio, che le converte in una sequenza di rappresentazioni continue. Allo stesso tempo, le trascrizioni di testo vengono elaborate da un codificatore di testo, che le converte in una sequenza corrispondente di rappresentazioni continue. Queste due sequenze vengono unite come prefisso per richiedere un modello di linguaggio pre-addestrato congelato. Il modello linguistico genera quindi token in modo autoregressivo, basandosi sull’input audio e testuale.
Per valutare le capacità di Pengi, sono state effettuate valutazioni su 22 diverse attività, tra cui sottotitoli audio, domande e risposte audio e rilevamento di eventi audio, tra gli altri. Pengi raggiunge prestazioni all’avanguardia in molte di queste attività, dimostrando la sua efficacia come potente modello di linguaggio audio applicabile a una vasta gamma di compiti.
Alcuni esempi delle funzionalità di Pengi includono la generazione di didascalie per registrazioni audio, la risposta a domande relative a registrazioni audio, il rilevamento di eventi all’interno di registrazioni audio, la traduzione di registrazioni audio in testo, il riassunto di registrazioni audio e la generazione di testi creativi come poesie, codice, sceneggiature, brani musicali, e-mail e lettere.
Anche se Pengi è ancora in fase di sviluppo, ha il potenziale per rivoluzionare l’interazione audio. Grazie a Pengi, le conversazioni naturali con i dispositivi diventano possibili, consentendo capacità audio senza precedenti che erano al di là delle possibilità fino ad oggi.