La fusione dei modelli è un processo cruciale nell’intelligenza artificiale che consente alle organizzazioni di riutilizzare e combinare modelli già addestrati per raggiungere obiettivi specifici. Sebbene ci siano diversi modi per implementare questa fusione, molti approcci sono complessi. Un nuovo metodo chiamato Differentiable Adaptive Merging (DAM) potrebbe offrire una soluzione efficace, semplificando la fusione dei modelli e riducendo i costi computazionali.
Arcee AI, un’azienda specializzata in modelli di linguaggio piccoli e efficienti, sta guidando la ricerca su DAM. Dopo aver ottenuto finanziamenti a maggio 2024, Arcee si è evoluta da fornitore di strumenti di formazione a una piattaforma completa di distribuzione di modelli, offrendo sia soluzioni open source che commerciali.
La fusione dei modelli consente alle aziende di combinare modelli specializzati in diverse aree per crearne uno nuovo in grado di operare in entrambe. A differenza della fusione dei dati, che è più semplice e ben compresa, la fusione dei modelli è più complessa a causa delle rappresentazioni interne dei modelli.
Thomas Gauthier-Caron, ingegnere di ricerca presso Arcee AI, ha spiegato che i metodi tradizionali di fusione dei modelli spesso si basano su algoritmi evolutivi, che possono essere lenti e imprevedibili. DAM, invece, sfrutta tecniche di ottimizzazione consolidate nel machine learning per semplificare il processo di fusione.
Gauthier-Caron ha affermato: “Ci siamo chiesti: possiamo semplificare le cose, consentendo alla macchina di ottimizzare tutto per noi, piuttosto che dover modificare manualmente i parametri?”
Invece di mescolare direttamente i modelli, DAM si adatta a seconda del contributo di ciascun modello, utilizzando coefficienti di scala per le colonne nelle matrici di peso. Questo approccio consente al sistema di apprendere automaticamente le impostazioni ottimali testando le performance del modello combinato e confrontandole con quelle dei modelli originali.
Secondo la ricerca, DAM si dimostra competitivo, se non superiore, rispetto ai metodi esistenti come la fusione evolutiva. Gauthier-Caron ha descritto i metodi tradizionali come processi lenti, senza certezza sui risultati.
A differenza di un approccio noto come Mixture of Experts (MoE), DAM non si limita a una specifica architettura di addestramento. L’idea centrale è che le organizzazioni possono riutilizzare modelli già addestrati, riducendo così i costi associati all’addestramento da zero.
Un esempio pratico dell’efficacia di DAM è la combinazione di un modello di lingua giapponese con uno matematico, creando così un modello capace di trattare problemi matematici in giapponese senza necessità di riqualificazione.
Questa tecnologia è particolarmente utile nell’adozione aziendale dell’IA generativa, dove l’efficienza e la riduzione dei costi sono fondamentali.