Merlot Multimodal Neural Script Knowledge Model abbinare le immagini nei video con le parole
Questo sistema di intelligenza artificiale ha imparato a capire i video guardando YouTube Gli esseri umani comprendono gli eventi nel mondo contestualmente, eseguendo ciò che viene chiamato ragionamento multimodale nel…