Nvidia ha presentato le rivoluzionarie innovazioni dell’intelligenza artificiale (AI) al NeurIPS 2022. Il gigante dell’hardware continua a spingere i confini della tecnologia nell’apprendimento automatico (ML), nelle auto a guida autonoma, nella robotica, nella grafica, nella simulazione e altro ancora. 

Le tre categorie di premi al NeurIPS 2022 erano queste: eccezionali track paper principali, set di dati eccezionali e track paper di riferimento e test of time paper. Nvidia ha vinto due premi quest’anno per i suoi documenti di ricerca sull’intelligenza artificiale, uno che esplora i modelli di intelligenza artificiale generativa basati sulla diffusione , l’altro sulla formazione di agenti di intelligenza artificiale generalisti. 

 
Nvidia ha anche presentato una serie di miglioramenti dell’IA su cui aveva lavorato nell’ultimo anno. Ha pubblicato due documenti, sulla fornitura di approcci di illuminazione unici e sulla creazione di modelli 3D, a seguito del suo lavoro in 3D e intelligenza artificiale generativa.

“NeurIPS è un’importante conferenza sull’apprendimento automatico e vediamo un grande valore nel partecipare allo spettacolo tra gli altri leader del settore. Alla conferenza abbiamo presentato oltre 60 progetti di ricerca e siamo stati orgogliosi di avere due articoli premiati con i NeurIPS 2022 Awards per il loro contributo all’apprendimento automatico”, Sanja Fidler , vicepresidente della ricerca sull’intelligenza artificiale presso Nvidia e autrice dei documenti 3D MoMa e GET3D, ha detto VentureBeat.  

 

La generazione di dati sintetici per immagini, testo e video sono stati i temi chiave di diversi articoli scritti da Nvidia. Altri argomenti trattati sono stati l’apprendimento per rinforzo, la raccolta e l’aumento dei dati, i modelli meteorologici e l’apprendimento federato.

Nvidia svela un nuovo modo di progettare modelli generativi basati sulla diffusione 
I modelli basati sulla diffusione sono emersi come una delle tecniche più dirompenti nell’IA generativa. I modelli di diffusione hanno mostrato un potenziale intrigante per ottenere una qualità superiore del campione di immagini rispetto ai metodi tradizionali come i GAN (reti generative avversarie). I ricercatori di Nvidia hanno vinto il premio “Outstanding Main Track Paper” per il loro lavoro nella progettazione di modelli di diffusione, che suggerisce miglioramenti nella progettazione del modello sulla base di un’analisi di diversi modelli di diffusione. 

 
Il loro documento , intitolato “Chiarire lo spazio di progettazione dei modelli generativi basati sulla diffusione”, scompone i componenti di un modello di diffusione in un design modulare, aiutando gli sviluppatori a identificare i processi che possono essere modificati per migliorare le prestazioni complessive del modello. Nvidia afferma che queste modifiche progettuali suggerite possono migliorare notevolmente l’efficienza e la qualità dei modelli di diffusione. 

I metodi definiti nel documento sono principalmente indipendenti dai componenti del modello, come l’architettura di rete e i dettagli di addestramento. Tuttavia, i ricercatori hanno prima misurato i risultati di base per diversi modelli utilizzando le loro capacità di output originali, quindi li hanno testati attraverso un framework unificato utilizzando una formula prestabilita, seguita da piccole modifiche che hanno portato a miglioramenti. Questo metodo ha permesso al gruppo di ricerca di valutare adeguatamente diverse scelte pratiche e proporre miglioramenti generali per il processo di campionamento del modello di diffusione che sono universalmente applicabili a tutti i modelli.

 
Anche i metodi descritti nel documento si sono dimostrati molto efficaci, in quanto hanno consentito ai modelli di ottenere punteggi record con capacità avanzate rispetto a metriche prestazionali come ImageNet-64 e CIFAR-10.

Risultati dell’architettura di Nvidia testati su vari set di dati di benchmarking. Fonte immagine: Nvidia
Detto questo, il team di ricerca ha anche notato che tali progressi nella qualità del campione potrebbero amplificare gli effetti sociali negativi se utilizzati in un sistema su larga scala come DALL·E 2. Questi effetti negativi potrebbero includere disinformazione, enfasi sugli stereotipi e pregiudizi dannosi. Inoltre, anche l’addestramento e il campionamento di tali modelli di diffusione richiedono molta elettricità; Il progetto di Nvidia ha consumato circa 250 MWh su un cluster interno di Nvidia V100. 

 
Generazione di forme 3D complesse da immagini 2D
La maggior parte dei giganti della tecnologia si sta preparando a mostrare le proprie capacità nel metaverso , inclusa Nvidia. All’inizio di quest’anno, la società ha dimostrato come Omniverse potrebbe essere la piattaforma di riferimento per la creazione di applicazioni metaverse. L’azienda ha ora sviluppato un modello in grado di generare modelli 3D ad alta fedeltà da immagini 2D, migliorando ulteriormente il suo stack tecnologico del metaverso. 

Chiamato Nvidia GET3D (per la sua capacità di generare mesh 3D con texture esplicite), il modello viene addestrato solo su immagini 2D ma può generare forme 3D con dettagli intricati e un numero elevato di poligoni. Crea le figure in una maglia triangolare, simile a un modello di cartapesta, ricoperta da uno strato di materiale strutturato.

 
“Il metaverso è costituito da mondi virtuali grandi e coerenti. Questi mondi virtuali devono essere popolati da contenuti 3D, ma non ci sono abbastanza esperti al mondo per creare l’enorme quantità di contenuti richiesti dalle applicazioni metaverse”, ha affermato Fidler. ” GET3D è un primo esempio del tipo di intelligenza artificiale generativa 3D che stiamo creando per offrire agli utenti un set di strumenti diversificato e scalabile per la creazione di contenuti.”

 
Inoltre, il modello genera queste forme nello stesso formato mesh triangolare utilizzato dalle applicazioni 3D più diffuse. Ciò consente ai professionisti creativi di importare rapidamente le risorse nei motori di gioco, nel software di modellazione 3D e nei renderer cinematografici in modo che possano iniziare a lavorarci. Questi oggetti generati dall’intelligenza artificiale possono popolare rappresentazioni 3D di edifici, luoghi all’aperto o intere città, nonché ambienti digitali sviluppati per i settori della robotica, dell’architettura e dei social media.

 
Secondo Nvidia, i precedenti modelli di intelligenza artificiale generativa 3D erano significativamente limitati nel livello di dettaglio che potevano produrre; anche i più sofisticati algoritmi di rendering inverso potevano solo costruire oggetti 3D basati su fotografie 2D raccolte da più angolazioni, richiedendo agli sviluppatori di costruire una forma 3D alla volta.

La modellazione manuale di un mondo 3D realistico richiede molto tempo e risorse. Strumenti di intelligenza artificiale come GET3D possono ottimizzare notevolmente il processo di modellazione 3D e consentire agli artisti di concentrarsi su ciò che conta. Ad esempio, quando si esegue l’inferenza su una singola GPU Nvidia, GET3D può produrre 20 forme in un secondo, operando come una rete contraddittoria generativa per foto 2D mentre produce oggetti 3D.

Più ampio e diversificato è il set di dati di addestramento, più vario e completo sarà l’output. Il modello è stato addestrato su GPU tensor core NVIDIA A100 , utilizzando un milione di immagini 2D di forme 3D acquisite da diverse angolazioni della telecamera. 

 
Una volta che un modulo generato da GET3D viene esportato in uno strumento grafico, gli artisti possono applicare effetti di luce realistici mentre l’oggetto si sposta o ruota in una scena. Gli sviluppatori possono anche utilizzare segnali linguistici per creare un’immagine in uno stile particolare combinando un altro strumento AI di Nvidia, StyleGAN-NADA . Ad esempio, potrebbero alterare un’automobile resa per farla diventare un’auto bruciata o un taxi, o convertire una casa normale in una casa infestata.

Secondo i ricercatori, una versione futura di GET3D potrebbe incorporare tecniche di stima della posa della fotocamera. Ciò consentirebbe agli sviluppatori di addestrare il modello su dati del mondo reale piuttosto che su set di dati sintetici. Il modello verrà inoltre aggiornato per consentire la generazione universale, il che significa che gli sviluppatori saranno in grado di addestrare GET3D su tutti i tipi di forme 3D contemporaneamente anziché su una categoria di oggetti alla volta.

Miglioramento delle pipeline di rendering 3D con l’illuminazione
 
Alla più recente conferenza CVPR a New Orleans a giugno, Nvidia Research ha presentato 3D MoMa . Gli sviluppatori possono utilizzare questo approccio di rendering inverso per generare oggetti 3D composti da tre parti: un modello mesh 3D, materiali posizionati sul modello e illuminazione.

Da allora, il team ha compiuto progressi sostanziali nel districare i materiali e l’illuminazione dagli oggetti 3D, consentendo agli artisti di modificare le forme generate dall’intelligenza artificiale cambiando i materiali o regolando l’illuminazione mentre l’oggetto si sposta in una scena. Ora presentato a NeurIPS 2022, 3D MoMa si basa su un modello di ombreggiatura più realistico che utilizza il ray tracing accelerato dalla GPU Nvidia RTX .

 
I recenti progressi nel rendering differenziabile hanno consentito la ricostruzione di alta qualità di scene 3D da immagini multiview. Tuttavia, Nvidia afferma che la maggior parte dei metodi si basa ancora su semplici algoritmi di rendering come l’illuminazione diretta prefiltrata o rappresentazioni apprese dell’irraggiamento. Il modello 3D MoMa di Nvidia incorpora l’integrazione Monte Carlo , un approccio che migliora sostanzialmente la scomposizione in forma, materiali e illuminazione.

Integrazione Monte Carlo di 3D MoMa. Fonte immagine: Nvidia
Sfortunatamente, l’integrazione Monte Carlo fornisce stime con rumore significativo, anche con un numero elevato di campioni, rendendo difficile il rendering inverso basato sul gradiente. Per risolvere questo problema, il team di sviluppo ha incorporato il campionamento e il denoising di importanza multipla in una nuova pipeline di rendering inverso. In questo modo si è sostanzialmente migliorata la convergenza e si è abilitata l’ottimizzazione basata sul gradiente a bassi conteggi di campioni. 

 
Il documento di Nvidia sui modelli generativi basati sulla diffusione presenta anche un metodo efficiente per ricostruire congiuntamente la geometria (maglie triangolari esplicite), i materiali e l’illuminazione, migliorando sostanzialmente la separazione dei materiali e della luce rispetto al lavoro precedente. Infine, Nvidia ipotizza che il denoising possa diventare parte integrante di pipeline di rendering inverso di alta qualità.

Fidler ha sottolineato l’importanza dell’illuminazione in un ambiente 3D e ha affermato che l’illuminazione realistica è fondamentale per una scena 3D. 

 
“Ricostruendo la geometria e separando gli effetti di luce dalle proprietà dei materiali degli oggetti, possiamo produrre contenuti che supportino effetti di riilluminazione e realtà aumentata (AR), che è molto più utile per creatori, artisti e ingegneri”, ha detto Fidler a VentureBeat. “Con l’intelligenza artificiale, vogliamo accelerare e generare questi oggetti 3D imparando da un’ampia varietà di immagini piuttosto che creando manualmente ogni contenuto”.

 
3D MoMa raggiunge questo obiettivo. Di conseguenza, il contenuto che produce può essere importato direttamente nel software di grafica esistente e utilizzato come elementi costitutivi per scene complesse. 

Il modello 3D MoMa ha dei limiti. Includono una mancanza di regolarizzazione efficiente dei parametri speculari materiali e la dipendenza da una maschera di segmentazione in primo piano. Inoltre, i ricercatori notano nel documento che l’approccio è computazionalmente intenso e richiede una GPU di fascia alta per le corse di ottimizzazione.

Il documento presenta un metodo di rendering Monte Carlo unico combinato con tecniche di riduzione della varianza, pratico e applicabile alla ricostruzione di oggetti 3D multivista di modelli 3D triangolari espliciti. 

 
Il futuro focus sull’IA di Nvidia
Fidler ha affermato che Nvidia è molto entusiasta dell’IA generativa, poiché la società ritiene che la tecnologia aprirà presto opportunità a più persone di diventare creatori.

“Stai già vedendo l’IA generativa e il nostro lavoro sul campo, utilizzati per creare immagini straordinarie e bellissime opere d’arte”, ha affermato. “Prendi la mostra di Refik Anadol al MoMA , ad esempio, che utilizza Nvidia StyleGAN.”

Fidler ha affermato che altri domini emergenti su cui Nvidia sta attualmente lavorando sono i modelli fondamentali, l’apprendimento auto-supervisionato e il metaverso. 

 
“I modelli fondamentali possono essere addestrati su set di dati enormi e non etichettati, il che apre le porte ad approcci più scalabili per risolvere una serie di problemi con l’IA. Allo stesso modo, l’apprendimento auto-supervisionato ha lo scopo di apprendere da dati non etichettati per ridurre la necessità di annotazioni umane, che possono essere un ostacolo al progresso”, ha spiegato Fidler. 

“Vediamo anche molte opportunità nei giochi e nel metaverso, utilizzando l’intelligenza artificiale per generare contenuti al volo in modo che l’esperienza sia unica ogni volta. Nel prossimo futuro, sarai in grado di usarlo per interi villaggi, paesaggi e città assemblando un esempio di immagine per generare un intero mondo 3D.

Di ihal