Il 21 ottobre 2024, è stato annunciato che la Cina ha sviluppato un modello mondiale di intelligenza artificiale, conosciuto come “Emu3”. Tuttavia, si è scoperto che in realtà si tratta di un modello multimodale (LMM) capace di elaborare immagini, video e testo, riducendo così il divario tecnologico con gli Stati Uniti.

Secondo l’agenzia di stampa Xinhua e il South China Morning Post, l’Accademia di Intelligenza Artificiale di Pechino (BAAI), un’organizzazione no-profit, ha rilasciato questo modello, sottolineando che si tratta della prima azienda cinese a presentare un LMM. Il direttore della BAAI, Zhongyuan Wang, ha dichiarato che il modello è stato addestrato da zero, utilizzando un singolo trasformatore per mescolare sequenze multimodali, tokenizzando immagini, testo e video in spazi separati. Questo approccio, ha aggiunto, rappresenta un significativo progresso tecnologico, semplificando il processo di addestramento e aumentando l’efficienza, poiché elimina la necessità di modelli distinti per diversi tipi di dati.

Inoltre, Emu3 è stato presentato come un miglioramento rispetto ai modelli esistenti, superando i risultati ottenuti da tecnologie come il modello di “diffusione stabile” nella creazione di immagini e il modello multimodale “LLaVA” nella comprensione e generazione visiva.

Tuttavia, il metodo utilizzato, noto come “trasformatore di diffusione”, era già stato pubblicato da Google in un articolo del 2021, evidenziando che si tratta di una tecnologia ormai comune nel campo degli LMM. Inoltre, Alibaba ha recentemente lanciato “Q12-VL”, un LMM capace di analizzare video di 20 minuti, il che mette in discussione l’affermazione che Emu3 sia il primo LMM della Cina.

La distinzione tra modello mondiale (LWM) e modello multimodale (LMM) è importante; il primo rappresenta un concetto più avanzato. Né Pei Fei Li, nota esperta dell’Università di Stanford, né Yann LeCun Mehta, capo scienziato, hanno dichiarato di aver completato un modello di questo tipo.

Wang ha anticipato che, in futuro, i modelli mondiali multimodali faciliteranno applicazioni come robotica avanzata, guida autonoma, interazioni conversazionali e ragionamento complesso. Tuttavia, i media cinesi sostengono che, nonostante le sanzioni tecnologiche degli Stati Uniti, la Cina stia riuscendo a colmare significativamente il gap tecnologico.

Di Fantasy