In occasione di Halloween 2024, Meta ha svelato Meta Spirit LM, il suo primo modello linguistico multimodale open source, capace di integrare in modo fluido input e output di testo e voce. Questo modello si confronta direttamente con GPT-4o di OpenAI e altri modelli simili come EVI 2 di Hume, oltre a sistemi specializzati nel riconoscimento vocale e nella sintesi vocale, come ElevenLabs.
Progettato dal team Fundamental AI Research (FAIR) di Meta, Spirit LM si propone di superare le attuali limitazioni delle esperienze vocali di intelligenza artificiale, offrendo generazioni di discorsi più naturali ed espressive. Utilizza tecnologie come il riconoscimento automatico del parlato (ASR) e la sintesi vocale (TTS) per migliorare l’interazione tra utente e macchina.
Attualmente, Spirit LM è disponibile solo per scopi non commerciali, secondo la FAIR Noncommercial Research License. Ciò significa che gli utenti possono utilizzare, modificare e creare opere derivate dal modello, ma non possono distribuirlo per fini commerciali.
Tradizionalmente, i modelli di intelligenza artificiale utilizzano il riconoscimento automatico del parlato per analizzare l’input vocale, che poi viene elaborato da un modello linguistico e convertito in voce. Sebbene efficace, questo processo può sacrificare l’espressività umana. Spirit LM affronta questa sfida utilizzando token fonetici, di tono e di altezza per migliorare la qualità del parlato generato.
Meta ha rilasciato due varianti del modello:
- Spirit LM Base: utilizza token fonetici per generare il parlato.
- Spirit LM Expressive: include token aggiuntivi per catturare emozioni, come eccitazione o tristezza, rendendo il discorso generato più autentico.
Entrambi i modelli sono addestrati su un mix di dati testuali e vocali, consentendo loro di svolgere attività multimodali come la conversione tra parlato e testo, mantenendo al contempo un parlato espressivo.
Meta ha reso Spirit LM completamente open source, fornendo pesi del modello, codice e documentazione agli sviluppatori e ricercatori. L’obiettivo è stimolare l’innovazione nella comunità di ricerca sull’intelligenza artificiale e migliorare l’integrazione tra parlato e testo.
Il CEO di Meta, Mark Zuckerberg, è un forte sostenitore dell’intelligenza artificiale open source, ritenendo che questa tecnologia possa aumentare produttività, creatività e qualità della vita, accelerando i progressi in settori come la medicina e la scienza.
Spirit LM è progettato per apprendere nuovi compiti in vari ambiti, come:
- Riconoscimento automatico del parlato (ASR): conversione di parole parlate in testo.
- Text-to-Speech (TTS): creazione di voce a partire da testo scritto.
- Classificazione del discorso: identificazione del contenuto e del tono emotivo del parlato.
Con la sua capacità di rilevare e riflettere emozioni, il modello Spirit LM Expressive promette interazioni più umane e coinvolgenti, utili per assistenti virtuali e robot per il servizio clienti.
Spirit LM fa parte di un progetto più ampio di Meta FAIR, che include anche aggiornamenti su altri strumenti di intelligenza artificiale, come il Segment Anything Model 2.1 (SAM 2.1) per la segmentazione di immagini e video. Meta mira a sviluppare un’intelligenza artificiale avanzata e accessibile, condividendo la propria ricerca per il progresso della tecnologia e della società.
Con il lancio di Spirit LM, Meta segna un passo importante nell’integrazione di parlato e testo nell’intelligenza artificiale. Offrendo un modello open source, Meta invita la comunità di ricerca a esplorare nuove opportunità per applicazioni multimodali, rappresentando un significativo progresso nel campo dell’apprendimento automatico e promettendo interazioni più simili a quelle umane.