ByteDance, l’azienda tecnologica nota per applicazioni come TikTok, ha recentemente annunciato lo sviluppo di un innovativo modello di intelligenza artificiale denominato “InfiniteYou” (InfU). Questo strumento avanzato consente agli utenti di generare versioni multiple e personalizzate di sé stessi in diverse ambientazioni, mantenendo una notevole fedeltà all’identità originale.
L’obiettivo principale di InfiniteYou è superare le sfide tradizionali legate alla generazione di immagini che preservano l’identità individuale. Molti metodi esistenti soffrono di problemi quali scarsa somiglianza con l’originale, allineamento inadeguato tra testo e immagine e bassa qualità estetica. InfU affronta queste problematiche utilizzando i Diffusion Transformers (DiT), una tecnologia all’avanguardia che permette di mantenere le caratteristiche distintive di una persona da una fotografia di riferimento, offrendo al contempo possibilità di editing flessibile basato su testo.
Al cuore di InfiniteYou si trova InfuseNet, un componente progettato per integrare le caratteristiche identitarie nel modello base DiT attraverso connessioni residue. Questo approccio migliora la somiglianza con l’identità originale senza compromettere le capacità generative del modello. Inoltre, InfU utilizza una strategia di addestramento multi-fase, che include pre-addestramento e fine-tuning supervisionato con dati sintetici denominati “single-person-multiple-sample” (SPMS). Questa metodologia migliora l’allineamento tra testo e immagine, eleva la qualità delle immagini generate e riduce problemi come il “copia-incolla” del volto.
Una caratteristica distintiva di InfiniteYou è il suo design plug-and-play, che garantisce compatibilità con numerosi metodi esistenti. Il modello supporta la sostituzione del modello base con varianti di FLUX.1-dev, come FLUX.1-schnell, per una generazione più efficiente. Inoltre, la compatibilità con ControlNets e LoRAs offre maggiore controllabilità e flessibilità per compiti personalizzati. Particolarmente rilevante è l’integrazione con OminiControl, che estende le possibilità di personalizzazione multi-concetto, come la generazione personalizzata di identità e oggetti interagenti.
Test approfonditi hanno dimostrato che InfiniteYou offre prestazioni all’avanguardia, superando i modelli esistenti in termini di somiglianza con l’identità originale, allineamento testo-immagine e qualità generale delle immagini. Il codice sorgente è disponibile su GitHub, e gli utenti possono accedere a una demo e al modello su Hugging Face per sperimentare direttamente le capacità di InfU.