Mistral AI ha lanciato il suo nuovo modello di linguaggio di grandi dimensioni (LLM) open source chiamato “Mistral 7B v0.2”. Si dice che questo modello superi le prestazioni del “Rama 2” di Meta e dimostri versatilità ed efficienza anche con meno parametri.
Secondo quanto riportato da Mark Tech Post, Mistral AI ha presentato due varianti del modello: Mistral-7B-Base-v2.0 e Mistral-7B-Instruct-v2.0.
Una delle migliorie più significative nella versione v0.2 è l’ampliamento della finestra di contesto da 8000 a 32.000 token rispetto alla v0.1. Questo consente ai modelli di elaborare sequenze di testo più lunghe, generando output più coerenti per riassumere documenti, creare storie e rispondere a domande più dettagliate.
Inoltre, la v0.2 introduce un parametro “Rope Theta” ottimizzato per risultati più accurati e coesistenti in molteplici attività. Questa versione elimina anche l’uso della finestra di attenzione scorrevole, portando a tempi di inferenza più rapidi e a minori requisiti di calcolo.
La variante di istruzioni, “Mistral-7B-Instruction-v0.2”, può essere personalizzata e ottimizzata per compiti e applicazioni specifiche.
Mistral 7B v0.2 introduce anche Grouped-Query Attention (GQA) per migliorare la velocità di inferenza e ridurre il consumo di memoria, oltre all’utilizzo di ‘byte’ per produrre output precisi anche con vocabolari complessi. Inoltre, è stato utilizzato BPE Tokenizer per consentire al modello di elaborare senza problemi token non presenti nel vocabolario.
Questo modello ha ottenuto risultati impressionanti in vari benchmark. Con 7,3 miliardi di parametri, ha superato il modello “Rama 2 13B” in tutte le attività valutate e si è comportato in modo simile al modello “Rama 1 34B”. Anche nell’ambito della codifica, Mistral 7B v0.2 ha mostrato versatilità, avvicinandosi alle prestazioni del modello “Codrama 7B”, specificamente progettato per la programmazione.
La variante di ottimizzazione delle istruzioni ha superato tutti gli altri modelli di istruzioni 7B nel benchmark MT-Bench, rendendolo ideale per applicazioni come chatbot, assistenti virtuali e sistemi di conversazione.
Il modello Mistral 7B v0.2 è rilasciato sotto licenza Apache 2.0, consentendo a ricercatori, sviluppatori e aziende di utilizzarlo liberamente. Può essere scaricato e utilizzato localmente, distribuito su varie piattaforme cloud o accessibile tramite framework e librerie AI popolari.