Mistral Mixtral 8x7B: LLM open source supera le prestazioni di GPT-3.5?

Mistral, la startup europea di maggior successo dedicata all’intelligenza artificiale open source e ai modelli linguistici di grandi dimensioni (LLM), ha fatto nuovamente parlare di sé, attirando l’attenzione di esperti e influencer nel campo dell’intelligenza artificiale su X e LinkedIn.

La scorsa settimana, seguendo il suo stile distintivo, Mistral ha rilasciato il suo ultimo modello, denominato Mixtral 8x7B. Questo nuovo modello utilizza una tecnica chiamata “miscela di esperti”, combinando diversi modelli specializzati in diverse categorie di compiti. In modo inaspettato, Mistral ha rilasciato il modello senza alcuna spiegazione, blog post o video dimostrativi.

Oggi, Mistral ha pubblicato un articolo sul proprio blog per presentare ulteriormente il modello e condividerne i risultati nei benchmark, in cui si è dimostrato all’altezza o addirittura superiore al GPT-3.5 di OpenAI, un modello closed-source, e alla famiglia Llama 2 di Meta, precedentemente leader nell’ambito dell’intelligenza artificiale open source. L’azienda ha collaborato con CoreWeave e Scaleway per il supporto tecnico durante la fase di formazione del modello. Inoltre, Mixtral 8x7B è stato reso disponibile per uso commerciale sotto licenza Apache 2.0.

Gli early adopters dell’intelligenza artificiale hanno già scaricato Mixtral 8x7B e ne hanno testato le prestazioni. Grazie al suo requisito di risorse ridotto, può essere eseguito su macchine senza GPU dedicate, compresi i computer Apple Mac con la nuova CPU M2 Ultra.

Ethan Mollick, professore alla Wharton School of Business dell’Università della Pennsylvania e influencer nell’ambito dell’intelligenza artificiale, ha notato che Mixtral 8x7B sembra non avere “guardie di sicurezza”, consentendo agli utenti di generare contenuti potenzialmente considerati “non sicuri” o NSFW da altri modelli. Tuttavia, questa mancanza di barriere di sicurezza potrebbe sollevare sfide in termini di politiche e regolamentazioni.

È possibile provare Mixtral 8x7B tramite HuggingFace, ma l’implementazione di HuggingFace include dei limiti, poiché rifiuta di generare contenuti inappropriati o pericolosi.

Mistral ha già in serbo modelli ancora più potenti. Matt Schumer, CEO di HyperWrite AI, ha notato che l’azienda ha rilasciato una versione alfa di Mistral-medium sulla sua interfaccia di programmazione dell’applicazione (API) nel corso del fine settimana, suggerendo che un modello più grande e performante sia in fase di sviluppo.

Inoltre, Mistral ha recentemente completato una serie A di finanziamento da 415 milioni di dollari, guidata da A16z, portando la valutazione dell’azienda a 2 miliardi di dollari.

Mistral Mixtral 8x7B: LLM open source supera le prestazioni di GPT-3.5?

DiFantasy

Di Fantasy

Articoli correlati

Sakana AI presenta Marlin, un agente di ricerca autonoma capace di generare report strategici in otto ore

Google DeepMind pubblica una roadmap tecnica per il passaggio da AGI a Superintelligenza

Databricks presenta Omnigent, una piattaforma open source per orchestrare più agenti AI in un unico sistema

Ultimi Post

Sakana AI presenta Marlin, un agente di ricerca autonoma capace di generare report strategici in otto ore

Google DeepMind pubblica una roadmap tecnica per il passaggio da AGI a Superintelligenza

Databricks presenta Omnigent, una piattaforma open source per orchestrare più agenti AI in un unico sistema

SpaceX affitta Colossus 1 ad Anthropic mentre riorganizza l’infrastruttura per l’addestramento di Grok