Mentre il mondo è entusiasta per il nuovissimo GPT-4o-mini, Apple sta ampliando la sua offerta di modelli di intelligenza artificiale con una nuova famiglia di modelli chiamati DCLM. Oggi, il team di ricerca di Apple, che lavora nel progetto DataComp for Language Models, ha annunciato il rilascio di questi modelli su Hugging Face.
Il pacchetto include due modelli principali: uno con 7 miliardi di parametri e l’altro con 1,4 miliardi di parametri. Entrambi i modelli hanno ottenuto ottimi risultati nei benchmark, con il modello più grande che ha superato Mistral-7B e si sta avvicinando ad altri modelli di punta come Llama 3 e Gemma.
Vaishaal Shankar del team Apple ML ha definito questi modelli open source come i “più performanti” attualmente disponibili. È importante notare che il progetto è stato veramente open source, con la pubblicazione dei pesi del modello, del codice di addestramento e del set di dati utilizzato per il pre-addestramento.
Il progetto DataComp, guidato da ricercatori di Apple, University of Washington, Tel Aviv University e Toyota Institute of Research, è un’iniziativa collaborativa che punta a progettare set di dati di alta qualità per l’addestramento di modelli di intelligenza artificiale, in particolare per applicazioni multimodali. Il progetto utilizza un framework standardizzato per eseguire esperimenti e identificare le migliori tecniche di cura dei dati per ottenere modelli altamente performanti.
Gli esperimenti hanno dimostrato che il filtraggio basato su modelli, dove i modelli di apprendimento automatico selezionano automaticamente i dati di alta qualità, può essere molto efficace. Questo approccio è stato utilizzato per addestrare i modelli DCLM da zero, utilizzando un set di dati chiamato DCLM-Baseline.
Il modello DCLM-7B, addestrato su 2,5 trilioni di token, ha mostrato prestazioni eccellenti con una finestra di contesto di 2K e un punteggio di 5-shot del 63,7% su MMLU. Questo rappresenta un miglioramento significativo rispetto al precedente stato dell’arte, MAP-Neo, e utilizza il 40% in meno di risorse di calcolo per l’addestramento.
Anche il modello più piccolo, DCLM-1.4B, ha ottenuto risultati notevoli nei test MMLU, Core ed Extended. Con un punteggio del 41,9% nel test MMLU a 5 scatti, supera altri modelli della stessa categoria, come lo SmolLM di Hugging Face e altri modelli di riferimento.
Il modello da 7 miliardi di parametri è disponibile sotto la Sample Code License di Apple, mentre il modello da 1,4 miliardi di parametri è rilasciato sotto la licenza Apache 2.0, che ne permette l’uso commerciale, la distribuzione e la modifica. È disponibile anche una versione del modello da 7 miliardi di parametri ottimizzata per le istruzioni nella libreria HF.
Va sottolineato che questa è una ricerca iniziale che dimostra l’efficacia della cura dei dati. I modelli non sono progettati specificamente per i dispositivi Apple e potrebbero presentare alcuni bias o produrre risposte indesiderate a causa dei dati di addestramento.