Sakana AI ha recentemente introdotto CycleQD, un framework innovativo che rivoluziona l’approccio al fine-tuning dei modelli linguistici, superando le limitazioni dei metodi tradizionali. Questo sistema consente la creazione efficiente di centinaia di modelli linguistici specializzati in diverse competenze, utilizzando algoritmi evolutivi per combinare le abilità di vari modelli senza richiedere processi di addestramento costosi e prolungati.

Tradizionalmente, l’addestramento dei modelli linguistici di grandi dimensioni (LLM) per padroneggiare più competenze comporta sfide significative. Gli ingegneri devono bilanciare i dati relativi alle diverse abilità, assicurandosi che una competenza non prevalga sulle altre. Questo spesso porta alla creazione di modelli sempre più grandi, con crescenti esigenze computazionali e di risorse. In contrasto, CycleQD propone un approccio sostenibile, ispirato ai principi dell’evoluzione naturale, per sviluppare una popolazione diversificata di modelli specializzati.

Il framework si basa sul concetto di Quality Diversity (QD), un paradigma dell’informatica evolutiva focalizzato sulla scoperta di un insieme diversificato di soluzioni a partire da un campione iniziale di popolazione. Il QD mira a creare esemplari con varie “caratteristiche comportamentali” (BC), che rappresentano diversi domini di competenza. Attraverso algoritmi evolutivi, vengono selezionati esemplari genitori e, mediante operazioni di crossover e mutazione, si generano nuovi campioni.

Integrando il QD nel processo post-addestramento degli LLM, CycleQD facilita l’apprendimento di nuove e complesse competenze. Questo è particolarmente utile quando si dispone di modelli più piccoli, ognuno specializzato in abilità specifiche come la programmazione o operazioni su database e sistemi operativi, e si desidera creare nuove varianti che combinino diverse di queste competenze. In ogni generazione del processo evolutivo, l’algoritmo si concentra su una specifica abilità come metrica di qualità, utilizzando le altre competenze come BC. Questo assicura che ogni modello nella popolazione sviluppi una combinazione unica di abilità, portando a una gamma diversificata di agenti specializzati.

I risultati ottenuti con CycleQD sono promettenti. I modelli generati attraverso questo framework hanno mostrato prestazioni superiori rispetto ai metodi di fine-tuning tradizionali in vari compiti, dimostrando la capacità di apprendere e combinare efficacemente diverse competenze. Questo approccio non solo migliora l’efficienza dell’addestramento, ma offre anche una soluzione più sostenibile per lo sviluppo di agenti AI avanzati.

Di Fantasy