Ai2 presenta Molmo, i nuovi modelli AI Open Source

L’Allen Institute for AI (Ai2) ha recentemente presentato Molmo, una famiglia di modelli di intelligenza artificiale multimodale open source che superano alcuni dei principali concorrenti proprietari, come GPT-4o di OpenAI, Claude 3.5 Sonnet di Anthropic e Gemini 1.5 di Google, in diversi test di valutazione.

I modelli Molmo possono analizzare immagini caricate dagli utenti, proprio come i modelli proprietari più conosciuti. Ai2 ha sottolineato che Molmo utilizza “1000 volte meno dati” rispetto ai suoi concorrenti, grazie a nuove tecniche di formazione innovative. Questo approccio mira a rendere disponibili modelli ad alte prestazioni, completi di pesi e dati aperti, a ricercatori e aziende, permettendo loro di avere pieno controllo e personalizzazione.

La famiglia Molmo include quattro modelli principali:

Molmo-72B: modello di punta con 72 miliardi di parametri, basato sul modello open source Qwen2-72B di Alibaba Cloud.
Molmo-7B-D: un “modello demo” con 7 miliardi di parametri, basato su Qwen2-7B.
Molmo-7B-O: basato sul modello OLMo-7B di Ai2.
MolmoE-1B: un mix di esperti che corrisponde quasi alle prestazioni di GPT-4V.

Questi modelli hanno ottenuto risultati elevati in vari benchmark, con licenze Apache 2.0 che consentono un uso flessibile per la ricerca e la commercializzazione.

In particolare, Molmo-72B ha ottenuto il punteggio più alto in 11 parametri di benchmark e si è classificato al secondo posto nelle preferenze degli utenti, subito dopo GPT-4o. Molmo-72B ha ottenuto punteggi di 96,3 su DocVQA e 85,5 su TextVQA, superando concorrenti come Gemini 1.5 Pro e Claude 3.5 Sonnet.

L’architettura di Molmo è progettata per massimizzare l’efficienza e le prestazioni. Utilizza il modello CLIP ViT-L/14 di OpenAI per elaborare le immagini e convertire i dati visivi in token, che vengono poi elaborati dal modello linguistico. La strategia di formazione prevede:

Pre-training multimodale: i modelli vengono addestrati a generare didascalie utilizzando descrizioni di immagini fornite da annotatori umani.
Ottimizzazione supervisionata: i modelli sono poi ottimizzati utilizzando un mix di set di dati eterogenei.

A differenza di molti modelli contemporanei, Molmo non utilizza l’apprendimento per rinforzo con feedback umano (RLHF), ma si concentra su un processo di addestramento meticoloso che aggiorna tutti i parametri del modello.

Ai2 ha reso disponibili questi modelli e set di dati su Hugging Face, con piena compatibilità con i framework di intelligenza artificiale più comuni. Questo accesso aperto fa parte della visione di Ai2 di promuovere l’innovazione e la collaborazione nella comunità dell’IA.

Nei prossimi mesi, Ai2 prevede di rilasciare ulteriori modelli, codice di addestramento e un rapporto tecnico ampliato. Per chi desidera esplorare le capacità di Molmo, una demo pubblica e vari checkpoint del modello sono già disponibili sulla pagina ufficiale di Molmo.

Ai2 presenta Molmo, i nuovi modelli AI Open Source

DiFantasy

Di Fantasy

Articoli correlati

Robotaxi di Baidu, Apollo Go, si schianta in una fossa di cantiere a Chongqing

Apple integra GPT-5 in iOS 26, iPadOS 26 e macOS Tahoe 26

Meta accelera nella corsa all’AGI con il laboratorio segreto TBD Lab

You missed

Robotaxi di Baidu, Apollo Go, si schianta in una fossa di cantiere a Chongqing

Apple integra GPT-5 in iOS 26, iPadOS 26 e macOS Tahoe 26

Meta accelera nella corsa all’AGI con il laboratorio segreto TBD Lab

Galileo: il nuovo modello AI open source della NASA per l’osservazione della Terra