Ritenendo che il pezzo mancante per arrivare all’AGI sia la parte in cui le macchine hanno la capacità di pensare o meglio avere “buon senso”, l’ex ricercatore senior di Google DeepMind con un dottorato di ricerca al MIT, Tejas Kulkarni, ha avviato Common Sense Machines (CSM). Kulkarni insieme a Max Kleiman-Weiner, ricercatore PhD del MIT e investitore scout presso Sequoia Capital, hanno avviato CSM, una piattaforma di intelligenza artificiale generativa end-to-end che crea contenuti pronti per il motore di gioco.
Nel 2019 era chiaro che i LLM stavano iniziando a funzionare e anche la generazione di immagini era piuttosto avanzata. Era evidente che il 3D sarebbe stato il prossimo passo e il problema principale che dovevamo risolvere era l’immagine in 3D”, ha affermato Kulkarni, il quale ritiene che il 3D sia da molto tempo un problema irrisolto nell’intelligenza artificiale.
Con tutti sulla strada per diventare giocatori, Jensen Huang, capo di NVIDIA, ha recentemente dichiarato ad AIMsu come l’intelligenza artificiale ha rivoluzionato la grafica computerizzata e ha persino esclamato su come le aziende stiano ora addestrando gli agenti dell’intelligenza artificiale sui giochi per “costruire qualcosa di pazzesco”. Arrivano le aziende di tipo CSM che costruiscono risorse 3D che possono essere integrate nei giochi e nel metaverso. “CSM sta costruendo livelli di creazione di contenuti in cui i nostri prodotti possono entrare in Omniverse e in una miriade di altri motori”, ha affermato Kulkarni. I creatori di UGC (contenuti generati dagli utenti), costituiti da giocatori, hobbisti e professionisti che desiderano ideare, creare risorse utilizzando CSM e utilizzare una stampante 3D per costruire il modello, costituiscono il loro pubblico principale. “Per UGC, è necessario creare forme più intuitive di esperienza utente”, ha affermato. Anche artisti 3D, studi, animatori, aziende di robotica e persone che costruiscono architetture di visualizzazione costituiscono il loro pubblico target.
Recentemente, la società ha rilasciato CSM Cube che consente varie modalità di input come immagini, video e testo. I modelli di fondazione 3D sono costruiti su uno stack di inferenza che combina tecniche derivate dal deep learning geometrico, modelli di diffusione, campi di radianza neurale, computer grafica e visione artificiale 3D.
“Siamo stati i primi a creare un’immagine in un modello 3D su nostra scala: nessuno lo aveva mai creato. Non esiste ancora un GPT di questo mondo”, ha affermato Kulkarni e riconosce che il CSM sta ancora costruendo un’architettura del genere, senza precedenti. “In termini di algoritmi, penso che sia un selvaggio west, quindi nessuno lo sa.”
Creando un ambiente 3D, si può dare una comprensione del campo fisico. “Al momento gli LLM predicono il testo ma non hanno realmente una comprensione di oggetti, persone, agenti, credenze, obiettivi e spazi. Che si tratti di un ambiente virtuale o fisico, questa capacità è ancora del tutto assente negli attuali sistemi di intelligenza artificiale”, ha affermato Kulkarni. “Qui, prima creeremo risorse, poi daremo loro movimento e poi avranno buon senso.”
Con un obiettivo inverosimile, CSM costruirebbe risorse che probabilmente potrebbero funzionare proprio come opererebbe un personaggio reale in questo ambiente. Uno sviluppo simile è stato testato l’ultima volta con agenti IA in un mondo virtuale, dove un gruppo di ricercatori di Stanford e Google ha creato 25 agenti/avatar IA con identità diverse che interagivano e simulavano comportamenti umani credibili.
Kulkarni ha parlato anche delle attuali lacune nei modelli del trasformatore che possono impedire alle macchine di pensare da sole: ogni token in un modello del trasformatore non è radicato (il processo di connessione o collegamento di parole e concetti utilizzati nel linguaggio ai loro referenti nel mondo reale o significati). Attualmente, i token sono disallineati, il che porta ad allucinazioni e le persone cercano modi per risolverlo che non vengono risolti. “Penso che se vuoi davvero risolvere il problema, c’è una prova dell’esistenza che sono gli esseri umani. A meno che non colleghiamo ogni parola a tutto ciò a cui si riferisce quell’oggetto, i pezzi mancanti rimarranno.
Fondata nel 2020, Common Sense Machines ha raccolto finanziamenti per un totale di 10 milioni di dollari ed è sostenuta, tra gli altri, dalle società di venture capital Intel Capital e Toyota Ventures. Con un team di 15 persone, CSM sta lavorando a nuovi sviluppi e presto verrà offerta agli utenti un’opzione API. Tuttavia, la concorrenza sul campo si sta delineando.
“Negli ultimi due anni abbiamo suonato nella terra di nessuno, ma penso che ora siamo riusciti a scappare da quella situazione. Ora la domanda è: come navighiamo?” Considerando di avere un vantaggio nello spazio, Kulkarni non è preoccupato per le grandi tecnologie, che sono allineate, ma piuttosto per altre società di contenuti che potrebbero essere più minacciose – “Penso che tutti i soliti sospetti come le società di media come Shutterstock, Getty, i vecchi contenuti aziende e motori di gioco come Unity e Unreal.”
Parlando di Midjourney, che Kulkarni considera una startup di nuova generazione, ha detto che probabilmente sperimenteranno anche il 3D, ma quanto andranno in profondità o si concentreranno sulla discordia è ciò che bisogna vedere. È interessante notare che Nick St. Pierre, direttore creativo e sviluppatore di comunità nel campo dell’intelligenza artificiale e dell’arte, ha twittato che Midjourney sta lavorando al 3D e potrebbe essere rilasciato presto. Tuttavia, non genererà mesh (la geometria della superficie di un oggetto 3D) ma si concentrerà maggiormente sulla qualità generale dei riflessi, sulla trasparenza e sugli output simili a campi di luce come NeRF, posizionando CSM in vantaggio al momento.