La fusione adattiva differenziabile DAM accelera gli SLM per le aziende

La fusione dei modelli è un processo cruciale nell’intelligenza artificiale che consente alle organizzazioni di riutilizzare e combinare modelli già addestrati per raggiungere obiettivi specifici. Sebbene ci siano diversi modi per implementare questa fusione, molti approcci sono complessi. Un nuovo metodo chiamato Differentiable Adaptive Merging (DAM) potrebbe offrire una soluzione efficace, semplificando la fusione dei modelli e riducendo i costi computazionali.

Arcee AI, un’azienda specializzata in modelli di linguaggio piccoli e efficienti, sta guidando la ricerca su DAM. Dopo aver ottenuto finanziamenti a maggio 2024, Arcee si è evoluta da fornitore di strumenti di formazione a una piattaforma completa di distribuzione di modelli, offrendo sia soluzioni open source che commerciali.

La fusione dei modelli consente alle aziende di combinare modelli specializzati in diverse aree per crearne uno nuovo in grado di operare in entrambe. A differenza della fusione dei dati, che è più semplice e ben compresa, la fusione dei modelli è più complessa a causa delle rappresentazioni interne dei modelli.

Thomas Gauthier-Caron, ingegnere di ricerca presso Arcee AI, ha spiegato che i metodi tradizionali di fusione dei modelli spesso si basano su algoritmi evolutivi, che possono essere lenti e imprevedibili. DAM, invece, sfrutta tecniche di ottimizzazione consolidate nel machine learning per semplificare il processo di fusione.

Gauthier-Caron ha affermato: “Ci siamo chiesti: possiamo semplificare le cose, consentendo alla macchina di ottimizzare tutto per noi, piuttosto che dover modificare manualmente i parametri?”

Invece di mescolare direttamente i modelli, DAM si adatta a seconda del contributo di ciascun modello, utilizzando coefficienti di scala per le colonne nelle matrici di peso. Questo approccio consente al sistema di apprendere automaticamente le impostazioni ottimali testando le performance del modello combinato e confrontandole con quelle dei modelli originali.

Secondo la ricerca, DAM si dimostra competitivo, se non superiore, rispetto ai metodi esistenti come la fusione evolutiva. Gauthier-Caron ha descritto i metodi tradizionali come processi lenti, senza certezza sui risultati.

A differenza di un approccio noto come Mixture of Experts (MoE), DAM non si limita a una specifica architettura di addestramento. L’idea centrale è che le organizzazioni possono riutilizzare modelli già addestrati, riducendo così i costi associati all’addestramento da zero.

Un esempio pratico dell’efficacia di DAM è la combinazione di un modello di lingua giapponese con uno matematico, creando così un modello capace di trattare problemi matematici in giapponese senza necessità di riqualificazione.

Questa tecnologia è particolarmente utile nell’adozione aziendale dell’IA generativa, dove l’efficienza e la riduzione dei costi sono fondamentali.

La fusione adattiva differenziabile DAM accelera gli SLM per le aziende

DiFantasy

Di Fantasy

Articoli correlati

Voxtral Transcribe 2 di Mistral: trascrizione vocale on-device, costi bassi e latenza da tempo reale

Perplexity introduce l’aggiornamento Advanced Deep Research e apre al pubblico il benchmark DRACO per migliorare la ricerca con l’intelligenza artificiale

OpenAI Frontier: una piattaforma per controllare, scalare e governare gli agenti AI in azienda

Ultimi Post

Voxtral Transcribe 2 di Mistral: trascrizione vocale on-device, costi bassi e latenza da tempo reale

Perplexity introduce l’aggiornamento Advanced Deep Research e apre al pubblico il benchmark DRACO per migliorare la ricerca con l’intelligenza artificiale

OpenAI Frontier: una piattaforma per controllare, scalare e governare gli agenti AI in azienda

Kling 3.0, il nuovo partner creativo per la generazione di video AI