Mistral AI, la startup francese che compete con OpenAI e Anthropic, ha lanciato oggi il suo primo modello multimodale: Pixtral 12B. Questo nuovo modello integra capacità di elaborazione linguistica e visiva, aprendo nuove possibilità per l’analisi delle immagini.
Attualmente, Pixtral 12B non è accessibile al pubblico online, ma è possibile scaricare il suo codice sorgente da Hugging Face o GitHub per testarlo su singole istanze. In una mossa insolita, Mistral ha rilasciato prima un collegamento torrent per i file del modello.
Pixtral 12B promette di combinare immagini e testo per fornire risposte alle domande sugli elementi presenti nelle immagini caricate. Anche se molti altri modelli concorrenti offrono già capacità di elaborazione delle immagini, Mistral afferma che Pixtral supporta un numero arbitrario di immagini di dimensioni variabili, grazie alla sua architettura avanzata.
Secondo i primi tester, il modello da 24 GB ha 40 livelli, 14.336 dimensioni nascoste e 32 testine di attenzione, che permettono un’elaborazione computazionale estesa. È dotato di un codificatore di visione dedicato con supporto per una risoluzione dell’immagine fino a 1024×1024 e 24 livelli nascosti per un’elaborazione avanzata delle immagini.
Pixtral 12B sarà presto disponibile attraverso il chatbot web di Mistral e su La Platforme di Mistral, che offre endpoint API per l’uso dei modelli dell’azienda. Mistral mira a democratizzare l’accesso alle applicazioni visive e a sfidare i principali laboratori di intelligenza artificiale con questo nuovo modello.
Dal suo lancio lo scorso anno, Mistral ha continuato a espandere la sua offerta di modelli e a stringere alleanze con grandi nomi del settore come Microsoft, AWS e Snowflake. Recentemente, l’azienda ha raccolto 640 milioni di dollari con una valutazione di 6 miliardi di dollari, e ha lanciato diversi modelli avanzati, tra cui il Mistral Large 2 e il Mixtral 8x22B.