AMD ha annunciato il lancio di ‘OLMo 1B’, un modello linguistico di grandi dimensioni (LLM) con 1 miliardo di parametri, progettato per funzionare su PC dotati di intelligenza artificiale. Questa iniziativa mira a ottimizzare l’integrazione tra hardware e software, ampliando l’ecosistema AI di AMD e migliorando l’efficienza dei suoi chip.
AMD ha rilasciato tre varianti del modello OLMo 1B:
- OLMo 1B: versione pre-addestrata.
- OLMo 1B SFT: versione con fine-tuning supervisionato.
- OLMo 1B SFT DPO: versione allineata alle preferenze umane.
Il modello è stato addestrato utilizzando 64 GPU Instinct MI250, distribuite su 16 nodi, con un dataset di 1,3 trilioni di token.
OLMo 1B ha dimostrato prestazioni superiori rispetto a modelli open-source di dimensioni simili, come TinyLlama-1.1B, MobiLlama-1B e OpenELM-1_1B, in benchmark di inferenza generale e comprensione multi-task (MMLU).
Dettagli tecnici:
- OLMo 1B: Basato su un trasformatore decoder-only, addestrato su un sottoinsieme del dataset Dolma v1.7, focalizzato sulla previsione del token successivo per catturare pattern linguistici e conoscenze generali.
- OLMo 1B SFT: Dopo l’addestramento iniziale, è stato sottoposto a fine-tuning con il dataset Tulu v2 e ulteriori dataset come OpenHermes-2.5, WebInstructSub e Code-Feedback, migliorando le capacità di esecuzione di comandi e le performance in ambiti scientifici, di codifica e matematici.
- OLMo 1B SFT DPO: Questa versione è stata ulteriormente raffinata utilizzando il dataset UltraFeedback, allineando le risposte del modello alle preferenze umane tipiche.
La versione SFT ha mostrato un incremento del 5,09% nel punteggio MMLU e del 15,32% nel benchmark GSM8k. La versione SFT DPO ha superato altri modelli open-source con un margine medio del 2,60%.
Implicazioni e prospettive
Con il lancio di OLMo 1B, AMD segue la strategia di NVIDIA, sviluppando software ottimizzato per il proprio hardware, con l’obiettivo di espandere l’ecosistema AI e massimizzare l’efficacia dei suoi chip. Questo modello offre potenti capacità di inferenza, esecuzione di comandi e funzionalità di chat, supportando anche la distribuzione locale su PC con processori Ryzen AI, permettendo agli sviluppatori di sfruttare modelli AI direttamente sui propri dispositivi.
In precedenza, AMD aveva rilasciato modelli open-source come AMD-Llama-135M e Amuse 2.0, un modello di generazione di immagini AI per PC basati su hardware AMD. Questi sviluppi evidenziano l’impegno di AMD nel fornire soluzioni AI integrate e ottimizzate per le sue piattaforme hardware, offrendo agli utenti strumenti avanzati per applicazioni AI direttamente sui propri dispositivi.