Kyutai, un laboratorio francese di ricerca sull’intelligenza artificiale senza scopo di lucro, ha lanciato Moshi, un modello vocale open source che si propone come alternativa all’avanzato modello vocale di OpenAI. Questo lancio avviene in un momento in cui l’attenzione sullo sviluppo di tecnologie vocali AI è particolarmente alta, con molte aziende che competono per offrire soluzioni innovative nel campo delle interazioni vocali.
Moshi è un modello multimodale in grado di conversare in tempo reale con gli esseri umani, proprio come il modello avanzato di OpenAI. La caratteristica distintiva di Moshi è la sua natura open source, che permette agli utenti di eseguire il modello localmente su dispositivi come il MacBook di Apple. Questo lo rende un’opzione interessante per sviluppatori e ricercatori che cercano alternative accessibili e flessibili.
Kyutai ha rilasciato tre versioni del modello: Moshi, insieme a due varianti ottimizzate per voci sintetiche maschili e femminili, rispettivamente chiamate Moshiko e Moshika, e un codec vocale chiamato Mimi. Questi modelli sono disponibili per PyTorch, MLX su macOS e implementazioni Rust, offrendo una vasta gamma di opzioni di integrazione per gli sviluppatori.
Moshi è stato testato su un MacBook Pro M3 e funziona come un agente conversazionale per dialoghi informali, fornendo informazioni di base, consigli su ricette e curiosità, e persino supporto per giochi di ruolo. Tuttavia, ha capacità limitate per attività più complesse e non supporta l’integrazione di strumenti esterni, il che potrebbe limitarne l’utilizzo in contesti più avanzati.
Per gli utenti che desiderano utilizzare Moshi su macchine con GPU, è necessario disporre di almeno 24 GB di memoria e dell’ultima versione della toolchain Rust, con il supporto per CUDA correttamente installato. Attualmente, la versione PyTorch non supporta la quantizzazione, quindi i requisiti hardware sono piuttosto elevati.
Il lancio di Moshi rappresenta una risposta diretta all’avanzato modello vocale di OpenAI, offrendo un’opzione accessibile e flessibile per coloro che cercano soluzioni open source. A differenza del modello di OpenAI, che è costoso e non offre opzioni di distribuzione locale, Moshi può essere eseguito su dispositivi personali, rendendolo particolarmente interessante per sviluppatori e piccoli team di ricerca.
Andrej Karpathy, ex co-fondatore di OpenAI, ha elogiato Moshi definendolo un’alternativa divertente e accessibile, anche se ha riconosciuto alcune carenze nella fluidità delle interazioni. “Trovo che la personalità del modello Moshi sia molto divertente: è un po’ brusca, interrompe, va fuori tema, ma è anche molto accattivante e degna di un meme”, ha scherzato Karpathy.
Moshi è composto da tre elementi chiave:
- Helium: un modello linguistico da 7 miliardi di parametri addestrato su 2,1 trilioni di token.
- Mimi: un codec audio neurale che cattura dettagli semantici e acustici, comprimendo l’input audio per ridurre la latenza.
- Architettura Multi-Stream: questa architettura elabora l’audio dell’utente e di Moshi su canali separati, consentendo l’elaborazione full-duplex e migliorando la qualità delle interazioni.
Durante l’inferenza, Moshi cattura il flusso audio dell’utente mentre genera il proprio flusso audio, prevedendo i token di testo correlati al discorso. Questo approccio riduce la latenza e migliora l’accuratezza delle risposte, con una latenza complessiva di appena 200 millisecondi su GPU L4.
Kyutai non è l’unica azienda a lavorare su modelli vocali avanzati. Hume AI ha recentemente lanciato EVI 2, un modello AI voce-voce che promette interazioni più naturali e fluide con gli utenti. Anche Amazon Alexa e Google stanno lavorando su miglioramenti significativi per le loro capacità conversazionali, integrando modelli avanzati per rendere le interazioni più simili a quelle umane.
Con Moshi, Kyutai spera di contribuire a un ecosistema di ricerca più aperto e collaborativo, offrendo agli sviluppatori uno strumento potente e versatile per esplorare nuove possibilità nel campo dell’intelligenza artificiale vocale. Sebbene ci sia ancora spazio per miglioramenti, Moshi rappresenta un passo importante verso un futuro in cui le tecnologie vocali AI saranno più accessibili e personalizzabili per tutti.