Nel contesto in rapida evoluzione dei modelli linguistici di grandi dimensioni (LLM), è emerso DBRX, un nuovo modello open source sviluppato da Databricks. Questo modello sta guadagnando attenzione per le sue prestazioni eccezionali in vari benchmark, rivaleggiando con piattaforme consolidate come il GPT-4 di OpenAI.
DBRX è un traguardo importante nella democratizzazione dell’intelligenza artificiale, offrendo a ricercatori, sviluppatori e aziende un accesso aperto a un modello linguistico avanzato. Esploriamo le sue caratteristiche distintive, inclusa l’architettura innovativa, il processo di formazione e le capacità chiave che lo posizionano in prima linea nell’ambito degli LLM open source.
Il cuore delle prestazioni di DBRX è la sua architettura di esperti misti (MoE), che si discosta dai tradizionali modelli densi adottando un approccio sparso che migliora l’efficienza del pre-training e la velocità di inferenza. In particolare, DBRX utilizza 16 “esperti”, con quattro attivi per ogni input, offrendo fino a 65 volte più combinazioni di esperti possibili rispetto a modelli simili, potenziando significativamente le sue prestazioni.
Le innovazioni di DBRX includono:
- Codifiche di posizione rotanti (RoPE), che migliorano la comprensione della posizione dei token.
- Unità lineari con gating (GLU), che introducono un meccanismo di gating per apprendere modelli complessi più efficacemente.
- Grouped Query Attention (GQA), che ottimizza l’efficienza del meccanismo di attenzione.
- Tokenizzazione avanzata, adottando il tokenizzatore di GPT-4 per elaborare gli input più efficacemente.
DBRX è stato pre-addestrato su 12 trilioni di token di testo e codice, utilizzando strumenti come Apache Spark per l’elaborazione dei dati e MLflow per il monitoraggio degli esperimenti. Databricks ha anche implementato un curriculum di preformazione dinamico, variando il mix di dati durante la formazione per ottimizzare l’apprendimento.
Le performance di DBRX sono impressionanti, superando modelli come GPT-3.5 in vari benchmark. L’architettura MoE garantisce un’efficienza superiore durante l’inferenza, rendendo DBRX ideale per un’ampia gamma di applicazioni, dalla creazione di contenuti all’analisi dei dati.
DBRX è disponibile attraverso la piattaforma Hugging Face e il suo codice è accessibile su GitHub, facilitando l’uso e la personalizzazione del modello. Databricks ha anche integrato DBRX in varie piattaforme e servizi di terze parti, estendendo ulteriormente la sua applicabilità.