Arcee, una startup innovativa nel campo dell’intelligenza artificiale, ha appena rilasciato un nuovo strumento open source chiamato “DistillKit”. Questo strumento è progettato per trasferire la conoscenza da modelli linguistici di grandi dimensioni (LLM) a modelli più piccoli e leggeri (sLM), con l’obiettivo di migliorare le loro prestazioni e facilitarne l’uso sui dispositivi mobili.
Secondo Mark Tech Post, DistillKit si basa su una tecnologia chiamata “distillazione”. Questo processo prevede l’addestramento di un modello piccolo (lo studente) utilizzando le conoscenze di un modello grande (l’insegnante). In questo modo, i modelli più piccoli possono ottenere prestazioni elevate con meno risorse computazionali.
Arcee ha spiegato che DistillKit è progettato per ottimizzare modelli di intelligenza artificiale per hardware meno potente, come laptop e smartphone, mantenendo al contempo le prestazioni dei modelli più grandi. Il tool utilizza due metodi principali di distillazione:
- Distillazione Basata su Logit: Il modello insegnante fornisce al modello studente non solo le risposte corrette, ma anche i livelli di fiducia nelle previsioni. Questo aiuta il modello studente a imitare meglio le decisioni del modello insegnante e a migliorare la sua generalizzazione.
- Distillazione Basata sugli Stati Nascosti: Il modello studente cerca di replicare le rappresentazioni intermedie del modello insegnante. Questo approccio permette una comprensione più profonda dei dati e facilita la distillazione tra modelli con architetture diverse.
Il modello open source utilizzato per testare DistillKit è il ‘Qwen2-1.5B-Base’, e i risultati sono stati molto promettenti. Il modello distillato ha mostrato miglioramenti significativi nelle prestazioni su benchmark come BBH, MUSR e MMLU-PRO, con benefici particolari anche per domini specifici.
Inoltre, DistillKit offre agli sviluppatori la flessibilità di personalizzare il processo di distillazione in base alle loro esigenze, permettendo di creare modelli più piccoli ed efficienti, riducendo così le risorse computazionali e l’energia necessarie per l’implementazione dell’intelligenza artificiale.
Arcee ha annunciato che continuerà a migliorare DistillKit con aggiornamenti futuri, tra cui tecniche avanzate come la pre-formazione continua (CPT) e l’ottimizzazione delle preferenze dirette (DPO).
Questo strumento è particolarmente utile per creare modelli linguistici personalizzati per specifici domini, una tendenza crescente negli Stati Uniti.