Immagine AI

Mistral ha recentemente presentato Voxtral, un modello open-source che promette di superare le tradizionali limitazioni dei sistemi di riconoscimento vocale. Disponibile in due varianti – una da 24 miliardi di parametri per applicazioni su larga scala e una da 3 miliardi per utilizzi locali ed edge – Voxtral si distingue per la sua capacità di comprendere e rispondere al linguaggio parlato in modo semantico, senza la necessità di passare a modalità separate per la sintesi o l’esecuzione di comandi.

Tradizionalmente, i modelli di riconoscimento vocale open-source hanno offerto una comprensione limitata del linguaggio, mentre quelli proprietari garantivano una maggiore precisione a un costo elevato. Voxtral si propone di colmare questo divario, offrendo un’accuratezza di livello superiore e una comprensione semantica nativa in un formato aperto e a un prezzo inferiore rispetto alle API comparabili.

Una delle caratteristiche distintive di Voxtral è la sua capacità di non limitarsi alla trascrizione del parlato, ma di comprendere il contenuto audio e generare riassunti o rispondere a domande senza dover passare a modalità separate. Inoltre, il modello permette di attivare funzioni e chiamate API basate su istruzioni vocali, offrendo un livello di interazione più naturale e fluido con i sistemi digitali.

Voxtral supporta più lingue e può rilevare automaticamente lingue come inglese, spagnolo, francese, portoghese, hindi, tedesco, italiano e olandese. Questo lo rende particolarmente adatto per applicazioni globali e per utenti che necessitano di interazioni in diverse lingue.

Il modello è disponibile tramite l’API di Mistral e un endpoint dedicato alla trascrizione sul suo sito web. Gli utenti possono anche accedere a Voxtral attraverso Le Chat, la piattaforma di chat di Mistral, facilitando l’integrazione in vari flussi di lavoro aziendali e applicazioni consumer.

Di Fantasy