Ricordate Sakana AI? Quasi un anno fa, questa startup di Tokyo ha fatto parlare di sé con i suoi fondatori provenienti da Google e un innovativo approccio alla creazione di modelli ad alte prestazioni tramite fusione automatizzata. Oggi, l’azienda ha lanciato due nuovi modelli di generazione di immagini: Evo-Ukiyoe ed Evo-Nishikie.
Disponibili su Hugging Face, questi modelli sono progettati per creare immagini a partire da descrizioni testuali e immagini di input. Ma c’è una novità: anziché generare immagini in stili diversi, questi modelli si concentrano sull’arte storica giapponese ukiyo-e, fiorita tra il XVII e il XIX secolo. Sakana AI punta a riportare questa forma d’arte alla ribalta utilizzando l’intelligenza artificiale.
Questo lancio segue una tendenza crescente nel settore dell’IA, dove aziende di paesi come Corea del Sud, India e Cina sviluppano modelli su misura per le loro culture e dialetti.
L’ukiyo-e, che significa “immagini del mondo fluttuante,” era un’arte popolare giapponese che rappresentava scene storiche, paesaggi e lottatori di sumo, inizialmente in bianco e nero e successivamente a colori, con la tecnica del “nishiki-e”. La sua popolarità è diminuita nel XIX secolo con l’avvento della fotografia.
Con i nuovi modelli, Sakana AI vuole riportare in auge l’ukiyo-e. Evo-Ukiyoe è un modello testo-immagine che crea opere in stile ukiyo-e partendo da descrizioni testuali, come fiori di ciliegio o kimono. Può anche generare arte ukiyo-e di oggetti moderni come hamburger o laptop, anche se a volte i risultati potrebbero non essere perfettamente aderenti allo stile originale.
Questo modello utilizza Evo-SDXL-JP, sviluppato attraverso la fusione di modelli evolutivi su SDXL di Stability AI e altri modelli di diffusione. Sakana AI ha impiegato LoRA (Low-Rank Adaptation) per affinare Evo-SDXL-JP su un dataset di oltre 24.000 opere di ukiyo-e, collaborando con l’Art Research Center (ARC) della Ritsumeikan University di Kyoto.
Il secondo modello, Evo-Nishikie, si occupa di colorare stampe ukiyo-e monocromatiche. Può aggiungere colore a illustrazioni storiche o rinnovare le stampe nishiki-e esistenti. Gli utenti forniscono l’immagine di partenza e possono aggiungere istruzioni per specificare gli elementi da colorare.
Sakana AI ha creato questo modello utilizzando ControlNet su Evo-Ukiyoe, con prompt fissi e immagini di riferimento.
Attualmente, entrambi i modelli e il codice sono disponibili su Hugging Face. Il codice Python e i pesi LoRA sono rilasciati con licenza Apache 2.0. La startup avverte che questi modelli sono ancora in fase sperimentale e destinati solo alla ricerca e sviluppo, non all’uso commerciale o in ambienti critici.
Finora, Sakana AI ha raccolto 30 milioni di dollari di finanziamenti da investitori come Lux Capital e Khosla Ventures, noti per aver sostenuto aziende pioniere dell’IA come Hugging Face e OpenAI.