Sfruttare i grandi modelli di visione-linguaggio

 

SMU Ufficio della Ricerca – La terminologia dell’intelligenza artificiale (IA) e le sue numerose sigle possono risultare confuse per una persona comune, soprattutto con lo sviluppo sempre più sofisticato dell’IA.

Tra i progressi si trova il deep learning, una tecnica di apprendimento automatico che insegna ai computer ad imparare attraverso l’esempio.

“Il deep learning ha apportato molti cambiamenti significativi all’IA, in particolare nell’elaborazione del linguaggio naturale (NLP) e nella visione artificiale, due sottoaree dell’IA”, afferma Jing Jiang, professore di Informatica presso la Singapore Management University (SMU).

“Nel mio campo, che riguarda l’NLP, gli approcci alle soluzioni di molti compiti sono cambiati radicalmente grazie al recente successo delle tecnologie come ChatGPT, e il deep learning è uno dei fattori chiave che permettono queste tecnologie”.

ChatGPT è un noto chatbot alimentato dall’IA in grado di generare risposte simili a quelle umane a partire da input testuali in modo conversazionale. I suoi risultati possono includere articoli, rapporti e persino testi di canzoni, anche se il suo tentativo di “scrivere” una canzone di Nick Cave è stato accolto con derisione dall’artista.

Ma ChatGPT continua ad essere migliorato. Trasferisce le sue conoscenze da grandi insiemi di dati noti come modelli di linguaggio pre-addestrati su larga scala (LLM) che sono stati sviluppati da aziende tecnologiche e governi. Ripropone i dati utilizzando l’IA generativa, che genera gli articoli e i rapporti sopra menzionati.

“ChatGPT non è stato addestrato intenzionalmente per svolgere tutti questi compiti. La sua capacità di trasferire le conoscenze apprese da altri compiti a un nuovo compito è un esempio di trasferimento a zero”, afferma il professore Jiang.

ChatGPT e simili hanno aperto la strada a un nuovo progetto di ricerca guidato dal professor Jiang, che di recente ha ottenuto un finanziamento di secondo livello dal MOE Academic Research Fund.

Il professor Jiang si sta concentrando sulla domanda e risposta visiva (VisualQA), una tecnologia che consente alle macchine di rispondere a domande basandosi su dati visivi. Il progetto mira a sviluppare un nuovo quadro metodologico per sfruttare il potere dei modelli di linguaggio pre-addestrati su larga scala per la visione (PT-VLM).

Scoprire competenze

Questo progetto sarà un altro caso di IA generativa?

“Per certi tipi di domande, le risposte non devono essere generate ma selezionate tra un insieme di risposte candidate”, afferma il professor Jiang.

“Ad esempio, se una domanda chiede il colore dei fiori in una foto, le risposte possono essere scelte tra un insieme di colori noti.

“D’altra parte, ci sono anche alcune domande, specialmente quelle con domande del tipo “perché” e “come”, che richiedono la generazione di risposte perché le risposte a queste domande sono frasi lunghe che non possono essere direttamente scelte da un insieme di risposte conosciute. Pertanto, nel mio progetto esplorerò l’uso di modelli generativi di linguaggio pre-addestrati esistenti per la generazione di risposte”.

Il team di ricerca identificherà le competenze di base richieste da VisualQA e utilizzerà un approccio di “indagine” per scoprire le “competenze” all’interno dei vari modelli pre-addestrati di visione-linguaggio. Poi progetteranno metodi basati su moduli di adattamento, che sono strati leggeri di reti neurali aggiuntivi, per potenziare i modelli pre-addestrati con competenze aggiuntive.

Le competenze necessarie includerebbero il riconoscimento degli oggetti e il ragionamento spaziale. Un’altra competenza più sfuggente è il “buon senso”. Può un algoritmo replicare il modo in cui gli esseri umani pensano e si comportano in modo ragionevole?

“Potrebbe sembrare un compito difficile, ma i ricercatori stanno indagando in questa direzione da parecchio tempo”, afferma il professor Jiang.

“Esistono già alcune risorse disponibili che cercano di catturare la conoscenza del buon senso, come ConceptNet. Inoltre, sempre più persone stanno scoprendo che i modelli di linguaggio pre-addestrati su larga scala possono acquisire conoscenze di buon senso, che probabilmente hanno appreso dalla grande quantità di dati su cui sono addestrati”.

Interesse commerciale

La ricerca e gli investimenti nei modelli PT-VLM sono stati in ritardo rispetto ai modelli di linguaggio. Il professor Jiang individua diverse ragioni.

“Innanzitutto, i dati linguistici contengono molte più informazioni o conoscenze rispetto ai dati visivi in termini di densità. Ciò significa che quando vengono addestrati sulla stessa quantità di dati, un modello di linguaggio potrebbe acquisire più conoscenza umana dai dati rispetto a un modello di visione”, afferma.

“In secondo luogo, la maggior parte della conoscenza umana è ancora catturata in formato testuale piuttosto che in formato visivo, fornendo ai modelli di linguaggio molto più dati di allenamento disponibili rispetto ai modelli di visione o ai modelli di visione-linguaggio.

“In terzo luogo, la comunicazione verbale (compresa la scrittura) è probabilmente il modo più conveniente ed efficiente per gli esseri umani di interagire con le macchine, il che significa che gli attori del settore si concentreranno anche di più nello sviluppo di potenti modelli di linguaggio come fondamento per i loro prodotti destinati all’utente finale, come i motori di ricerca e i chatbot”.

L’interesse commerciale per i modelli di visione-linguaggio è in crescita grazie alle numerose possibili applicazioni.

“Un esempio sono i chatbot multimodali, che possono ricevere input dagli esseri umani non solo sotto forma di discorsi e testi, ma anche sotto forma di rappresentazioni visive come immagini e video. Il nuovo Bing di Microsoft è un chatbot multimodale”, afferma il professor Jiang.

“Un altro caso d’uso importante è l’IA incorporata, in cui i modelli di IA sono presenti su robot che possono muoversi per percepire l’ambiente circostante e svolgere compiti per gli esseri umani. I modelli di IA congiunti di visione-linguaggio consentirebbero a un agente di IA incorporato (il robot) di comprendere le richieste verbali di un essere umano nel contesto che lo circonda”.

Impatti pratici

I modelli pre-addestrati su larga scala PT-VLM esistenti da soli non sono ancora sufficientemente potenti per gestire molte domande di VisualQA e fornire risposte corrette o rilevanti.

“L’approccio che riteniamo promettente al momento è quello di combinare le potenzialità di diversi modelli pre-addestrati, come un framework chiamato Visual ChatGPT sviluppato da Microsoft”, afferma il professor Jiang. “Il framework Visual ChatGPT non cerca di potenziare ulteriormente le capacità di un singolo modello di IA. Piuttosto, sfrutta le diverse abilità dei diversi modelli di IA pre-addestrati per svolgere congiuntamente un compito come modificare un’immagine di design d’interni in base alle richieste verbali di un utente (ad esempio, “Sostituisci il tavolino di vetro accanto alla poltrona con uno di legno delle stesse dimensioni”).

“Qui possiamo utilizzare un modello di IA per il rilevamento degli oggetti visivi, un altro per il ragionamento spaziale e un terzo per la generazione di immagini, ad esempio. La sfida consiste nella scomposizione dinamica del compito complesso originale in diversi sottocompiti più semplici e nella scelta dei modelli di IA pre-addestrati adatti per ciascun sottocompito. Visual ChatGPT utilizza il modello ChatGPT per svolgere la scomposizione del compito e la selezione del modello, il che ritengo molto intelligente”.

Poi c’è il problema di dove reperire nuovi dati di addestramento per potenziare i modelli PT-VLM.

“Potrebbe avvenire tramite il riutilizzo di set di dati esistenti o attraverso l’annotazione di nuovi set di dati tramite crowdsourcing. Poiché il campo sta evolvendo molto rapidamente, dovremo essere flessibili e aperti a nuove idee”, afferma il professor Jiang.

Una nota problematica ben nota sono i pregiudizi sociali presenti nei set di dati.

“Non è facile mitigare questi pregiudizi. Il problema è anche complicato perché i pregiudizi sociali sono diversi in diverse società e culture. Tuttavia, le aziende che sviluppano grandi modelli pre-addestrati stanno rimuovendo o riducendo attivamente questi pregiudizi attraverso l’intervento umano”.

Il professor Jiang prevede impatti pratici dal suo progetto di ricerca.

“Credo che i risultati della mia ricerca possano essere utilizzati per migliorare i chatbot multimodali e gli agenti di IA incorporati. Questi bot possono essere particolarmente utili per aumentare la produttività in settori come il commercio al dettaglio, l’ospitalità, l’istruzione e l’assistenza sanitaria”, afferma.

“Attualmente ho anche un altro progetto in corso che mira a creare un avatar virtuale per interagire con le persone affette da demenza. Le tecnologie di VisualQA sono un componente importante di tali avatar virtuali. Per società come Singapore che si trovano di fronte a problemi di invecchiamento imminenti, questi bot sociali alimentati dall’IA hanno molte applicazioni potenziali”.

Trovare una nuova metodologia per consentire alle macchine di rispondere meglio a domande basate su dati visivi è l’obiettivo di un progetto guidato dalla professoressa Jing Jiang della SMU.
CREDITO
Università di gestione di Singapore

Di ihal