Nvidia ha recentemente lanciato Maxine, una suite di strumenti di sviluppo software accelerati da GPU e servizi cloud-native. Maxine si propone di rivoluzionare i servizi e le piattaforme di comunicazione in tempo reale, consentendo a professionisti, team e creativi di sfruttare l’intelligenza artificiale per creare esperienze audio e video di alta qualità.
Le avanzate caratteristiche di Maxine, tra cui la cancellazione del rumore di fondo, la super risoluzione e il contatto visivo, migliorano notevolmente le interazioni comunicative, consentendo agli utenti remoti di ottenere qualità audio e video superiore, anche in situazioni di connettività limitata o in movimento. Inoltre, i partner di Nvidia hanno integrato con successo Maxine nei processi di editing video, aprendo nuove opportunità per comunicazioni coinvolgenti e accattivanti.
L’ampliamento delle funzionalità di Maxine nell’ambito dell’editing video introduce nuove prospettive per i professionisti del settore. Utilizzando Maxine, gli utenti possono mantenere il contatto visivo con la telecamera mentre consultano appunti o script, migliorando la loro presenza sullo schermo. Inoltre, i professionisti hanno la possibilità di registrare video a bassa risoluzione e successivamente migliorarne la qualità utilizzando la tecnologia di upscaling basata sull’intelligenza artificiale. Maxine agevola anche la registrazione di video in diverse lingue, semplificando la creazione di contenuti multilingue.
Le imminenti funzionalità di Maxine, in programma per il rilascio in accesso anticipato entro quest’anno, includono:
- Interprete: Questa caratteristica traduce discorsi in cinese semplificato, russo, francese, tedesco e spagnolo in inglese, sincronizzando l’immagine dell’utente con il discorso inglese.
- Carattere vocale: Consente di applicare le caratteristiche vocali di un oratore e sincronizzarle con l’audio di uscita, consentendo una maggiore personalizzazione dell’esperienza.
- Super risoluzione audio: Migliora la qualità dell’audio aumentando la precisione temporale del segnale audio e ampliando la gamma di frequenze, risultando in una maggiore chiarezza e fedeltà.
- Maxine Client: Ottimizzato per streaming a bassa latenza, questa applicazione porta le capacità di intelligenza artificiale dei servizi cloud-native di Maxine alle sessioni di videoconferenza su PC. Sfrutta il potere di calcolo delle GPU nel cloud per offrire esperienze comunicative fluide e arricchite dall’IA.
Maxine è flessibile nelle implementazioni, tanto che può essere utilizzato in cloud, on-premise o su dispositivi edge, garantendo che la comunicazione di alta qualità sia accessibile da qualsiasi luogo.
Diversi partner e clienti hanno già integrato Maxine nei loro flussi di lavoro e applicazioni, offrendo esperienze di videoconferenza ed editing eccezionali. Un esempio è Descript, una società di software che sfrutta la funzionalità Eye Contact di Maxine, consentendo agli utenti di mantenere il contatto visivo durante la presentazione di script.
Inoltre, Nvidia Research ha annunciato un notevole progresso nell’ambito della comunicazione immersiva con l’introduzione della tecnologia video 3D basata sull’intelligenza artificiale.
In una recente pubblicazione, Nvidia Research ha presentato una nuova ricerca che dimostra come l’IA possa abilitare un sistema di videoconferenza 3D con requisiti minimi di attrezzature, aprendo nuove possibilità nell’accessibilità ed economia della telepresenza 3D.
Tradizionalmente, i sistemi di telepresenza 3D sono stati limitati dai costi elevati, dai requisiti di spazio considerevoli e dalla dipendenza da flussi video volumetrici ad alta larghezza di banda. Questi ostacoli hanno frenato l’adozione su larga scala della tecnologia. Tuttavia, Nvidia Research ha sviluppato un metodo che utilizza un codificatore basato su VisionTransformer per trasformare il video input 2D da una normale webcam in una rappresentazione video 3D in tempo reale.
Questa tecnologia innovativa, alimentata dall’IA, elimina la necessità di scambiare dati 3D tra i partecipanti alla conferenza, mantenendo i requisiti di larghezza di banda allineati con quelli di una conferenza standard 2D. Attraverso il rendering volumetrico, il sistema genera automaticamente una rappresentazione 3D nota come Neural Radiance Field (NeRF) dal video 2D.dell’utente. Ciò consente ai partecipanti di trasmettere video 2D durante la decodifica di rappresentazioni 3D di alta qualità in tempo reale, creando un’esperienza di comunicazione davvero coinvolgente. Inoltre, la piattaforma Maxine di Nvidia introduce Live Portrait, consentendo agli utenti di dare vita ai propri ritratti in 3D.
Le implicazioni delle videoconferenze 3D mediate dall’intelligenza artificiale sono di vasta portata. La tecnologia ha il potenziale per ridurre significativamente il costo dell’acquisizione 3D, fornire rappresentazioni 3D ad alta fedeltà, ospitare avatar fotorealistici o stilizzati e consentire il contatto visivo reciproco durante le videoconferenze. Inoltre, questa ricerca pone le basi per le future tecnologie Nvidia nel campo della videoconferenza, promettendo di elevare la comunicazione e le interazioni virtuali a nuovi livelli.