GANverse 3D può essere importato come estensione in NVIDIA Omniverse per eseguire il rendering accurato di oggetti 3D nel mondo virtuale.
Ci sono diverse prove per dimostrare che l’IA che formerà la spina dorsale del metaverso. Il ruolo dell’IA nel metaverso implica la combinazione di diverse tecniche correlate come la visione artificiale, l’elaborazione del linguaggio naturale , la blockchain e i gemelli digitali .
A febbraio, il capo di Meta, Mark Zuckerberg, ha presentato una demo al primo evento virtuale dell’azienda, Inside The Lab , di come sarebbe il metaverso . Ha affermato che l’azienda stava lavorando a una nuova gamma di modelli di intelligenza artificiale generativa che consentirebbero agli utenti di generare una propria realtà virtuale semplicemente descrivendola. Zuckerberg ha annunciato una serie di lanci imminenti come Project CAIRaoke , “un modello neurale completamente end-to-end per la creazione di assistenti sul dispositivo” che aiuterebbe gli utenti a comunicare in modo più naturale con gli assistenti vocali. Nel frattempo, Meta stava anche lavorando alla creazione di un traduttore vocale universale in grado di offrire una traduzione vocale diretta per tutte le lingue. Pochi mesi dopo,Meta ha mantenuto la promessa. Tuttavia, Meta non è l’unica azienda tecnologica con skin nel gioco; aziende come NVIDIA hanno anche rilasciato modelli di intelligenza artificiale per un’esperienza metaverse più ricca .
Aprire il trasformatore preaddestrato o l’OPT-175B
La scorsa settimana Meta ha pubblicato un documento di ricerca insieme alla base di codice per il suo nuovo linguaggio di 175 miliardi di parametri in grado di tradurre in 200 lingue. Il modello è un passo definitivo verso la costruzione di un traduttore vocale universale . Intitolato ” No Language Left Behind “, il modello include lingue a basso contenuto di risorse con meno di un milione di coppie di frasi tradotte pubblicamente disponibili.
Rispetto ai modelli precedenti, NLLB-200 ha una qualità migliore del 44%. Per le lingue africane e indiane, che non sono così popolari come l’inglese o le lingue europee, le traduzioni del modello erano accurate di oltre il 70%. Meta ha affermato nel suo blog che il progetto aiuterà a “democratizzare l’accesso alle esperienze immersive nei mondi virtuali”.
GANverse 3D
Sviluppato da AI Research di NVIDIA , GANverse 3D è un modello che utilizza il deep learning per elaborare immagini 2D in versioni animate 3D. Introdotto in un documento di ricerca pubblicato su ICLR e CVPR l’anno scorso, lo strumento produce simulazioni più velocemente a costi inferiori. Il modello utilizzava StyleGAN per produrre automaticamente più viste da una singola immagine. L’applicazione può essere importata come estensione in NVIDIA Omniverse per eseguire il rendering accurato di oggetti 3D nel mondo virtuale.
NVIDIA ha introdotto Omniverse per aiutare gli utenti a creare simulazioni delle loro idee finali in ambienti virtuali .
La produzione di modelli 3D è diventata essenziale per il metaverso. Rivenditori come Nike e Forever21 hanno costruito i loro negozi virtuali nel metaverso per promuovere le vendite di eCommerce.
Modello di corrispondenza acustico visivo o AViTAR
Il team di Reality Labs di Meta ha collaborato con l’Università del Texas per costruire un modello di intelligenza artificiale che migliora la qualità del suono nel metaverso. Il modello aiuta ad abbinare l’audio al video in una scena. Trasforma la clip audio per farla sembrare come se fosse stata registrata in un ambiente specifico. Il modello utilizzava l’apprendimento auto-supervisionato dopo aver raccolto dati da video online casuali.
Idealmente, l’utente dovrebbe essere in grado di guardare il proprio ricordo preferito sui propri occhiali AR e ascoltare il suono esatto che è stato prodotto durante l’esperienza effettiva. Meta AI ha rilasciato l’open source per AViTAR insieme ad altri due modelli acustici, il che è una rarità considerando che il suono è una parte spesso ignorata dell’esperienza del metaverso.
Deverberazione visivamente informata o VIDA
Il secondo modello acustico rilasciato da Meta AI è stato utilizzato per rimuovere il riverbero dall’acustica. Il modello è stato addestrato su un set di dati su larga scala che aveva un’ampia varietà di rendering audio realistici da modelli 3D di case. Il riverbero non solo riduce la qualità dell’audio e ne rende difficile la comprensione, ma migliora anche la precisione del riconoscimento vocale automatico.
Ciò che rende VIDA unico è che utilizza segnali visivi e modalità audio per effettuare osservazioni. Migliorando i metodi tipici solo audio, VIDA può migliorare il parlato e identificare il parlato e l’oratore.
VisualVoice
Il terzo modello acustico rilasciato da Meta AI VisualVoice è stato utilizzato per estrarre il parlato dal video. Come VIDA, anche VisualVoice è stato addestrato su segnali audiovisivi da video senza etichetta. Il modello ha automatizzato la separazione del parlato. Ha applicazioni importanti come la creazione di tecnologia per le persone con problemi di udito, il miglioramento del suono nei dispositivi AR indossabili e la trascrizione del parlato da video online rumorosi.
Audio2Face
NVIDIA ha rilasciato l’anno scorso la versione beta aperta per Omniverse Audio2Face per generare animazioni facciali basate sull’intelligenza artificiale per adattarsi a qualsiasi voce fuori campo. Lo strumento ha semplificato il lungo e noioso processo di animazione per i giochi e gli effetti visivi. L’app consente inoltre agli utenti di fornire istruzioni in più lingue.
All’inizio di quest’anno, NVIDIA ha rilasciato un aggiornamento per lo strumento con funzionalità aggiuntive come BlendShape Generation, che aiuta l’utente a creare una serie di blendshape da un headmesh neutro. È stata inoltre aggiunta una funzione di riproduzione audio in streaming che consente lo streaming di dati audio utilizzando applicazioni di sintesi vocale.
Audio2Face è impostato con un modello di personaggio 3D che può essere animato con la traccia audio. L’audio viene quindi immesso in una rete neurale profonda. L’utente può anche modificare il personaggio in post-elaborazione per alterare le prestazioni del personaggio.