DeepSeek Rivela i Suoi Modelli LLM Open Source

DeepSeek, azienda cinese focalizzata sulla ricerca sull’Intelligenza Artificiale Generale (AGI), ha recentemente reso pubblici i suoi modelli DeepSeek LLM, dotati di 67 miliardi di parametri. Questi modelli sono stati sviluppati partendo da zero su un set di dati contenente 2 trilioni di token, e sono disponibili in versioni sia in inglese che in cinese.

Il pubblico e la comunità scientifica possono accedere alle versioni open source, DeepSeek LLM 7B/67B Base e DeepSeek LLM 7B/67B Chat, tramite GitHub, Hugging Face e AWS S3.

DeepSeek LLM e le Sue Capacità Impressionanti

Il modello DeepSeek LLM 67B Base ha mostrato capacità notevoli, superando altri modelli noti come Llama 2 70B Base in vari ambiti, tra cui ragionamento, codifica, matematica e comprensione della lingua cinese. La sua abilità nella codifica è stata evidenziata da un punteggio HumanEval Pass@1 di 73,78, mentre in matematica ha raggiunto punteggi notevoli.

Un altro risultato significativo è il punteggio ottenuto nell’esame nazionale di scuola superiore ungherese, dove il modello ha dimostrato una notevole capacità di generalizzazione, ottenendo un punteggio di 65.

Disponibilità e Valutazioni del Modello

I modelli DeepSeek LLM, nelle versioni base e chat, sono ora disponibili al pubblico, con l’accesso ai checkpoint intermedi durante il processo di formazione del modello base. Questi modelli sono soggetti ai termini di licenza specificati.

Le valutazioni condotte sui modelli base e chat li hanno confrontati con benchmark esistenti, rivelando la superiorità di DeepSeek LLM su altri modelli come LLaMA-2, GPT-3.5 e Claude-2, sia in inglese che in cinese. Inoltre, il modello ha mostrato prestazioni eccezionali in esami mai affrontati prima, come l’esame nazionale ungherese.

Miglioramenti nei Benchmark di Scelta Multipla

DeepSeek LLM ha migliorato le performance nei benchmark di scelta multipla, soprattutto in quelli cinesi, grazie all’incorporazione di 20 milioni di domande cinesi a scelta multipla. Il modello 7B Chat ha dimostrato punteggi migliorati in test come MMLU, C-Eval e CMMLU.

Dettagli Tecnici e Pre-Formazione di DeepSeek LLM

Il processo di pre-formazione di DeepSeek LLM ha incluso un vasto e variegato set di dati, con un’architettura simile a LLaMA che utilizza modelli di decodificatori con trasformatore autoregressivo. I dettagli specifici su curve di perdita di allenamento e parametri di riferimento sono stati resi pubblici, evidenziando l’impegno dell’azienda verso la trasparenza e l’accessibilità.

Concorrenza da Alibaba

In parallelo, Alibaba, un altro gigante tecnologico cinese, ha lanciato il suo LLM denominato Qwen-72B, addestrato su dati di alta qualità e con una finestra di contesto estesa. In aggiunta, Alibaba ha introdotto un modello più piccolo, Qwen-1.8B, offerto come contributo alla comunità di ricerca.

Di ihal