Immagine AI

Immagina un sistema che, emozionato dalla logica implacabile della natura, trova nuovi modelli d’intelligenza senza doverli addestrare da zero. Non serve una gigantesca sala server né mesi di calcoli infernali: basta osservare, combinare e lasciare che l’evoluzione faccia il resto. Questo è il cuore dell’Evolutionary Model Merge, la nuova tecnica di Sakana AI che ridefinisce ciò che è possibile nel mondo dell’IA generativa.

Allenare un modello generativo — sia di linguaggio che per vision language tasks — è costoso, lento, e richiede enormi risorse. Solo grandi aziende possono permettersi di mettere in moto questi colossi. Tuttavia, l’avvento di modelli aperti come Llama 2 o Mistral ha riacceso lo spirito creativo della community: sviluppatori e ricercatori hanno iniziato a sperimentare, non solo affinando questi modelli, ma anche “mergiandoli” — ossia combinandoli, strato su strato o parametro dopo parametro, per creare versioni nuove con capacità potenziate senza necessità di ulteriore training.

Sakana AI ha sviluppato un approccio più metodico e meno intuitivo: l’evoluzione come algoritmo. Invece di affidarsi al solo estro umano, lascia che un sistema evolutivo costruisca, testando combinazioni di modelli esistenti, selezionando le migliori, e ripetendo il processo. È un perfezionamento continuo: layer, pesi e architetture si mescolano, nascono modelli figli, quelli più adatti sopravvivono e generano nuove iterazioni.

Ne parla David Ha, uno dei fondatori di Sakana AI, sottolineando come questa strada consenta di evitare investimenti proibitivi in training da capo: si può invece costruire prototype potenti, economici e personalizzati, lasciando la heavy‑duty alla fine, solo se davvero necessario.

I risultati sono tangibili e sorprendenti. Sakana AI ha sperimentato con successo modelli emergenti in ambiti diversi:

  • EvoLLM-JP: un modello di 7 miliardi di parametri capace di ragionamento matematico in giapponese, risultato della fusione tra modelli Giapponesi e modelli specializzati in matematica. Il risultato ha superato alcuni modelli giapponesi da 70 miliardi di parametri.
  • EvoVLM-JP: un modello vision-language che si è dimostrato più efficace di VLM consolidati come LLaVa‑1.6‑Mistral‑7B o JSVLM.

Sono al lavoro anche su EvoSDXL-JP, una versione avanzata di Stable Diffusion XL ottimizzata per prompt in giapponese e in grado di generare immagini ad alta velocità.

Sakana AI non sogna un unico, onnisciente “super‑modello”, ma una rete di modelli specializzati, ciascuno nella sua nicchia, che collaborano tra loro come un “sciame” intelligente. Questo paradigma rifugge le grandi infrastrutture a favore di un approccio modulare, leggero e flessibile.

L’approccio di Sakana AI riduce le barriere d’ingresso allo sviluppo di foundation models, rendendolo accessibile a startup, governi e università. È un invito ad esplorare la vasta scacchiera delle possibilità offerte da modelli open-source già esistenti, prima di impegnare budget enormi in training costosi

Di Fantasy