Immagine AI

Sakana AI, un laboratorio giapponese dal nome ispirato al termine “sakana”, ovvero pesce, evoca l’immagine di un banco di pesci che, con regole semplici, forma una coerente e agile entità collettiva. È proprio questa idea di intelligenza collettiva che guida la loro nuova tecnica innovativa: Model Merging of Natural Niches (M2N2).

Per le aziende, l’addestramento o il fine-tuning di un modello AI è come costruire una casa da zero richiedendo materiale, tempo e forza lavoro. Il merging, invece, è più simile a fondere case già esistenti: si usano i “mattoni” migliori presi da modelli già addestrati, assemblandoli in modo che combinino i loro punti di forza, senza ricominciare da zero — senza gradienti, senza dati originali, senza costi elevati.

M2N2 supera i limiti delle tecniche di merging tradizionali grazie a una vision “evolutiva”, ispirata ai processi naturali. Ecco come funziona:

  • Confini flessibili invece di rigidi strati. Anziché unire modelli seguendo layer rigidi, M2N2 consente di scegliere “split points” (punti di divisione) e “mixing ratios” (percentuali di fusione) su ogni strato. In pratica, si può prendere il 30% di un layer da un modello e il 70% dall’altro: più libertà, più potenza di fusione.
  • Una “popolazione” di modelli con diversità competitiva. I modelli vengono conservati in un archivio e messi in una sorta di arena evolutiva. I modelli con abilità diverse e complementari sono premiati: è come accoppiare modelli che si completano a vicenda, evitando che due copie simili non creino valore aggiunto.
  • Accoppiamenti guidati dall’“attrazione” di punti di forza complementari. Invece di combinare semplicemente i migliori modelli, M2N2 utilizza un punteggio di attrazione per scegliere coppie che riescono a eccellere in compiti diversi: il risultato è una fusione più efficace.

M2N2 non è solo teoria, è un processo che ha già dimostrato di funzionare su diversi fronti:

  • Classificazione immagini su MNIST da zero: evolvendo una popolazione di modelli da zero, M2N2 ha raggiunto un’accuratezza di prova nettamente superiore a quella di altri metodi, grazie alla sua capacità di mantenere diversità funzionale.
  • Fusioni LLM specializzati: fondendo un modello esperto in matematica (WizardMath‑7B) e uno più orientato alle interazioni web (AgentEvol‑7B), entrambi basati su Llama 2, M2N2 ha generato un modello capace di eccellere in compiti matematici (GSM8K) e di navigazione (WebShop) contemporaneamente.
  • Diffusione di immagini multilingue: ha combinato un generatore focalizzato su prompt giapponesi (JSDXL) con modelli Stable Diffusion su prompt inglesi. Il risultato? Immagini estremamente realistiche, con un’intelligenza emergente bilingue — capace di capire e generare prompt sia in giapponese sia in inglese.

Per le aziende, M2N2 apre porte interessanti. Immagina di fondere un modello che realizza pitch di vendita con uno in grado di interpretare le reazioni dei clienti via analisi visiva e ottenere un agente capace di adattare le vendite in tempo reale basandosi sulle espressioni facciali — il tutto senza costi proibitivi.

Il team di Sakana AI immagina un mondo in cui non esiste un unico modello “monolitico”, ma una rete evolutiva di modelli in continua fusione, crescita e specializzazione: un vero e proprio ecosistema in divenire.

I ricercatori hanno già rilasciato il codice di M2N2 su GitHub, permettendo alla community di esplorare e sperimentare con questa metodologia. Tuttavia, il vero ostacolo non è tecnico: gestire privacy, sicurezza e conformità diventa fondamentale in un sistema che combina componenti da fonti diverse — open source, commerciali o personalizzati.

M2N2 è un modello evolutivo e visionario che ridefinisce il modo in cui costruiamo intelligenze artificiali. Invece di partire da zero, sfrutta l’intelligenza già presente nelle “nicchie naturali” dei modelli esistenti, fondendole in nuovi agenti più potenti, efficienti e sorprendentemente innovativi — proprio come la natura insegna.

Di Fantasy