Microsoft ha svelato “Kosmos-1”, un modello multimodale di linguaggio di grandi dimensioni (MLLM) con capacità visive e linguistiche.
Di conseguenza, il fatto che MS abbia investito molto in Open AI e utilizzato attivamente “Chat GPT” installandolo nei programmi di ricerca, ufficio e Windows e, allo stesso tempo, abbia implementato una strategia a doppio binario di sviluppando l’intelligenza artificiale (AI) internamente.
Kosmos-1, rilasciato da Microsoft, può analizzare immagini e rispondere a domande su di esse, leggere testo da immagini, scrivere didascalie per immagini ed eseguire test di intelligenza.È stato introdotto come modello multimodale. La multimodalità è la capacità di riconoscere e comprendere diversi tipi di percezioni e modalità di input.
In particolare, l’intelligenza artificiale multimodale che incorpora diverse modalità di input come testo, audio, immagini e video è considerata un passo fondamentale verso la costruzione di un’intelligenza artificiale generica (AGI) in grado di svolgere compiti comuni a livello umano.
AGI è anche un obiettivo esplicito per OpenAI, partner di Microsoft nel campo dell’IA, e DeepMind, una sussidiaria di Google.
MS ha rivelato che kosmos-1 è un modello costruito in modo indipendente senza l’intervento dell’IA aperta. È anche chiamato “MLLM (multimodal large language model)” perché è radicato nell’elaborazione del linguaggio naturale, come i modelli di linguaggio di grandi dimensioni di solo testo (LLM) come ChatGPT.
Affinché kosmos-1 accetti l’input di immagini anziché di testo, deve prima convertire l’immagine in una serie di token che l’LLM può interpretare come testo.
Il modulo di incorporamento viene utilizzato per codificare sia il testo che altre forme di input in vettori. Ogni token di input viene mappato a un vettore di incorporamento rappresentato da un numero utilizzando una tabella di ricerca. L’incorporamento viene quindi inviato al decodificatore.
kosmos-1, un modello linguistico su larga scala, tratta altri tipi di modalità di input come immagini e audio come se fossero lingue straniere. In altre parole, Kosmos-1 è in grado di comprendere, descrivere, valutare ed elaborare tutti i tipi di moduli di input proprio come il testo.
I dati di addestramento di Kosmos-1 sono costituiti da corpora di testo, coppie parola-immagine e varie raccolte di dati multimodali che combinano immagini e testo. Per il componente immagine, abbiamo utilizzato il set di dati “LAION” e per il componente testo, abbiamo utilizzato una risorsa di testo inglese da 800 GB chiamata “The Pile” e il set di dati “Common Crawl” di Internet.
Microsoft ha affermato che il Kosmos-1 ha superato altri modelli all’avanguardia in diversi test, tra cui la comprensione del linguaggio post-formazione, la generazione del linguaggio, la classificazione del testo senza riconoscimento ottico dei caratteri, i sottotitoli delle immagini, la risposta visiva alle domande, la risposta alle domande sulle pagine web e classificazione delle immagini a scatto zero.
Altre possibilità includono l’automazione delle attività in molte situazioni, dal dire agli utenti di Windows 10 come riavviare il proprio computer, alla lettura delle pagine Web che navigano, all’interpretazione dei dati sanitari dai loro dispositivi, alla didascalia delle immagini.
Interessanti sono i risultati del Raven Intelligence Test, che misura l’intelligenza visiva (QI) presentando una serie di forme di immagini e chiedendo loro di completare una sequenza. Kosmos-1 ha risposto correttamente solo al 22% delle domande del test Raven. Tuttavia, è valutato come significativo in quanto LLM ha mostrato la possibilità di eseguire ragionamenti non verbali combinando il riconoscimento visivo con un modello linguistico.