Onoma AI presenta Quanta, un modello di generazione immagini specializzato in illustrazioni, anime e webtoon

Onoma AI ha annunciato Quanta, un nuovo modello di generazione immagini basato sull’intelligenza artificiale sviluppato specificamente per contenuti illustrativi, anime, webtoon e asset grafici destinati all’industria dei videogiochi. Il modello appartiene alla categoria Text-to-Image e consente di generare immagini a partire da descrizioni testuali, con un’attenzione particolare alla riproduzione di stili artistici complessi e alla coerenza dei personaggi.

Quanta utilizza come modello di base Qwen-Image 20B, il sistema di generazione immagini sviluppato da Alibaba. Su questa base, Onoma AI ha eseguito un processo di specializzazione finalizzato a migliorare le capacità di rappresentazione visiva tipiche dei contenuti illustrativi orientali, con particolare attenzione a character design, composizione delle scene, espressività dei soggetti e coerenza stilistica.

Secondo l’azienda, il modello ha raggiunto prestazioni di livello SOTA nella categoria Anime Style del benchmark OneIG-Bench, una piattaforma utilizzata per valutare la qualità dei modelli di generazione immagini in diversi scenari applicativi. Il risultato suggerisce che l’ottimizzazione effettuata da Onoma AI non si è concentrata sulla generazione generica di immagini, ma su una categoria creativa specifica caratterizzata da requisiti particolarmente complessi in termini di anatomia dei personaggi, espressività facciale, gestione delle prospettive e fedeltà stilistica.

Una parte significativa del progetto riguarda il processo di costruzione del dataset. L’azienda ha sviluppato una pipeline proprietaria di data curation destinata a selezionare automaticamente immagini e descrizioni testuali di elevata qualità. Attraverso sistemi di filtraggio basati sull’intelligenza artificiale sono stati eliminati contenuti ritenuti poco coerenti o scarsamente allineati tra testo e immagine, conservando soltanto gli esempi con una forte corrispondenza semantica. Questo approccio mira a ridurre il rumore nei dati di addestramento, uno dei principali fattori che possono compromettere la qualità dei modelli generativi.

Onoma AI ha inoltre costruito un dataset specializzato dedicato alle illustrazioni, sviluppato attraverso attività di ricerca interna. Tale raccolta è stata utilizzata per migliorare la rappresentazione dei personaggi, la qualità delle pose, la varietà delle inquadrature e la composizione narrativa delle immagini. Secondo l’azienda, il modello è in grado di mantenere una maggiore coerenza visiva anche quando i soggetti vengono rappresentati da prospettive differenti, una capacità particolarmente importante per applicazioni come webtoon, storyboard e concept art.

Un aspetto interessante dell’annuncio riguarda l’efficienza dell’addestramento. Quanta è stato sviluppato utilizzando soltanto otto GPU NVIDIA H100, un numero relativamente contenuto rispetto a molti progetti generativi di fascia alta. Per raggiungere questo risultato, Onoma AI ha dichiarato di aver utilizzato strategie di training ottimizzate e tecniche avanzate di gestione della memoria, riducendo il fabbisogno computazionale senza compromettere la qualità finale del modello.

Durante l’addestramento sono stati impiegati sia dati reali sia dati sintetici generati dall’intelligenza artificiale. L’obiettivo era mitigare alcuni fenomeni di degrado che possono emergere durante il fine-tuning di modelli generativi e aumentare la varietà delle situazioni rappresentate nel dataset. L’azienda sostiene che questa combinazione abbia contribuito a migliorare la capacità del modello di interpretare correttamente le intenzioni creative degli utenti e di produrre risultati maggiormente allineati alle preferenze estetiche umane.

Successivamente alla fase di training principale, Quanta è stato sottoposto a ulteriori processi di allineamento utilizzando dataset proprietari. Questo passaggio è stato utilizzato per affinare la fedeltà stilistica e migliorare la qualità percepita delle immagini generate, intervenendo in particolare sulla resa artistica dei personaggi e sulla composizione delle scene.

Con Quanta, Onoma AI punta a sviluppare una nuova generazione di strumenti destinati ai creatori di contenuti commerciali. L’azienda prevede di estendere la tecnologia ai settori dell’illustrazione professionale, dei webtoon, dell’animazione e della grafica per videogiochi, continuando a migliorare la qualità degli sfondi, la varietà espressiva e la capacità del modello di riprodurre elementi culturali e stilistici associati ai contenuti coreani destinati al mercato globale.

Onoma AI presenta Quanta, un modello di generazione immagini specializzato in illustrazioni, anime e webtoon

DiFantasy

Di Fantasy

Articoli correlati

Moonshot AI sospende i nuovi abbonamenti a Kimi K3 per carenza di capacità GPU

ComiXR porta fumetti e webtoon negli ambienti di realtà estesa

Frozen v2: il chip Google che integrerà parti di Gemini direttamente nell’hardware

Ultimi Post

Moonshot AI sospende i nuovi abbonamenti a Kimi K3 per carenza di capacità GPU

ComiXR porta fumetti e webtoon negli ambienti di realtà estesa

Frozen v2: il chip Google che integrerà parti di Gemini direttamente nell’hardware

Kimi K3 sposta il fabbisogno dell’infrastruttura AI dalla potenza di calcolo alla memoria HBM