L’Allen Institute for AI (Ai2) ha recentemente presentato Molmo, una famiglia di modelli di intelligenza artificiale multimodale open source che superano alcuni dei principali concorrenti proprietari, come GPT-4o di OpenAI, Claude 3.5 Sonnet di Anthropic e Gemini 1.5 di Google, in diversi test di valutazione.

I modelli Molmo possono analizzare immagini caricate dagli utenti, proprio come i modelli proprietari più conosciuti. Ai2 ha sottolineato che Molmo utilizza “1000 volte meno dati” rispetto ai suoi concorrenti, grazie a nuove tecniche di formazione innovative. Questo approccio mira a rendere disponibili modelli ad alte prestazioni, completi di pesi e dati aperti, a ricercatori e aziende, permettendo loro di avere pieno controllo e personalizzazione.

La famiglia Molmo include quattro modelli principali:

  • Molmo-72B: modello di punta con 72 miliardi di parametri, basato sul modello open source Qwen2-72B di Alibaba Cloud.
  • Molmo-7B-D: un “modello demo” con 7 miliardi di parametri, basato su Qwen2-7B.
  • Molmo-7B-O: basato sul modello OLMo-7B di Ai2.
  • MolmoE-1B: un mix di esperti che corrisponde quasi alle prestazioni di GPT-4V.

Questi modelli hanno ottenuto risultati elevati in vari benchmark, con licenze Apache 2.0 che consentono un uso flessibile per la ricerca e la commercializzazione.

In particolare, Molmo-72B ha ottenuto il punteggio più alto in 11 parametri di benchmark e si è classificato al secondo posto nelle preferenze degli utenti, subito dopo GPT-4o. Molmo-72B ha ottenuto punteggi di 96,3 su DocVQA e 85,5 su TextVQA, superando concorrenti come Gemini 1.5 Pro e Claude 3.5 Sonnet.

L’architettura di Molmo è progettata per massimizzare l’efficienza e le prestazioni. Utilizza il modello CLIP ViT-L/14 di OpenAI per elaborare le immagini e convertire i dati visivi in token, che vengono poi elaborati dal modello linguistico. La strategia di formazione prevede:

  • Pre-training multimodale: i modelli vengono addestrati a generare didascalie utilizzando descrizioni di immagini fornite da annotatori umani.
  • Ottimizzazione supervisionata: i modelli sono poi ottimizzati utilizzando un mix di set di dati eterogenei.

A differenza di molti modelli contemporanei, Molmo non utilizza l’apprendimento per rinforzo con feedback umano (RLHF), ma si concentra su un processo di addestramento meticoloso che aggiorna tutti i parametri del modello.

Ai2 ha reso disponibili questi modelli e set di dati su Hugging Face, con piena compatibilità con i framework di intelligenza artificiale più comuni. Questo accesso aperto fa parte della visione di Ai2 di promuovere l’innovazione e la collaborazione nella comunità dell’IA.

Nei prossimi mesi, Ai2 prevede di rilasciare ulteriori modelli, codice di addestramento e un rapporto tecnico ampliato. Per chi desidera esplorare le capacità di Molmo, una demo pubblica e vari checkpoint del modello sono già disponibili sulla pagina ufficiale di Molmo.

Di Fantasy