L’Allen Institute for AI (Ai2) ha recentemente presentato Molmo, una famiglia di modelli di intelligenza artificiale multimodale open source che superano alcuni dei principali concorrenti proprietari, come GPT-4o di OpenAI, Claude 3.5 Sonnet di Anthropic e Gemini 1.5 di Google, in diversi test di valutazione.
I modelli Molmo possono analizzare immagini caricate dagli utenti, proprio come i modelli proprietari più conosciuti. Ai2 ha sottolineato che Molmo utilizza “1000 volte meno dati” rispetto ai suoi concorrenti, grazie a nuove tecniche di formazione innovative. Questo approccio mira a rendere disponibili modelli ad alte prestazioni, completi di pesi e dati aperti, a ricercatori e aziende, permettendo loro di avere pieno controllo e personalizzazione.
La famiglia Molmo include quattro modelli principali:
- Molmo-72B: modello di punta con 72 miliardi di parametri, basato sul modello open source Qwen2-72B di Alibaba Cloud.
- Molmo-7B-D: un “modello demo” con 7 miliardi di parametri, basato su Qwen2-7B.
- Molmo-7B-O: basato sul modello OLMo-7B di Ai2.
- MolmoE-1B: un mix di esperti che corrisponde quasi alle prestazioni di GPT-4V.
Questi modelli hanno ottenuto risultati elevati in vari benchmark, con licenze Apache 2.0 che consentono un uso flessibile per la ricerca e la commercializzazione.
In particolare, Molmo-72B ha ottenuto il punteggio più alto in 11 parametri di benchmark e si è classificato al secondo posto nelle preferenze degli utenti, subito dopo GPT-4o. Molmo-72B ha ottenuto punteggi di 96,3 su DocVQA e 85,5 su TextVQA, superando concorrenti come Gemini 1.5 Pro e Claude 3.5 Sonnet.
L’architettura di Molmo è progettata per massimizzare l’efficienza e le prestazioni. Utilizza il modello CLIP ViT-L/14 di OpenAI per elaborare le immagini e convertire i dati visivi in token, che vengono poi elaborati dal modello linguistico. La strategia di formazione prevede:
- Pre-training multimodale: i modelli vengono addestrati a generare didascalie utilizzando descrizioni di immagini fornite da annotatori umani.
- Ottimizzazione supervisionata: i modelli sono poi ottimizzati utilizzando un mix di set di dati eterogenei.
A differenza di molti modelli contemporanei, Molmo non utilizza l’apprendimento per rinforzo con feedback umano (RLHF), ma si concentra su un processo di addestramento meticoloso che aggiorna tutti i parametri del modello.
Ai2 ha reso disponibili questi modelli e set di dati su Hugging Face, con piena compatibilità con i framework di intelligenza artificiale più comuni. Questo accesso aperto fa parte della visione di Ai2 di promuovere l’innovazione e la collaborazione nella comunità dell’IA.
Nei prossimi mesi, Ai2 prevede di rilasciare ulteriori modelli, codice di addestramento e un rapporto tecnico ampliato. Per chi desidera esplorare le capacità di Molmo, una demo pubblica e vari checkpoint del modello sono già disponibili sulla pagina ufficiale di Molmo.