In che modo Google intende migliorare le ricerche web con l’IA multimodale

Durante un evento in live streaming di oggi, Google ha descritto in dettaglio i modi in cui utilizza le tecniche di intelligenza artificiale, in particolare un algoritmo di apprendimento automatico chiamato modello unificato multitask (MUM) , per migliorare le esperienze di ricerca web in diverse lingue e dispositivi. A partire dall’inizio del prossimo anno, Google Lens, la tecnologia di riconoscimento delle immagini dell’azienda, acquisirà la capacità di trovare oggetti come l’abbigliamento in base a foto e descrizioni di alto livello. Nello stesso periodo, gli utenti di Ricerca Google inizieranno a vedere un elenco di cose che dovrebbero sapere su determinati argomenti, come i materiali per pittura acrilica, curato dall’intelligenza artificiale. Vedranno anche suggerimenti per perfezionare o ampliare le ricerche in base all’argomento in questione, nonché argomenti correlati nei video scoperti tramite la Ricerca.

Gli aggiornamenti sono il frutto di uno sforzo pluriennale di Google per migliorare la comprensione da parte di Ricerca e Lens di come il linguaggio si relaziona alle immagini dal Web. Secondo Google VP di Search Pandu Nayak, MUM, che Google ha descritto in una conferenza degli sviluppatori lo scorso giugno, potrebbe aiutare a connettere meglio gli utenti alle aziende facendo emergere prodotti e recensioni e migliorando “tutti i tipi” di comprensione della lingua, sia a livello di servizio clienti che in un contesto di ricerca.


“Il potere di MUM è la sua capacità di comprendere le informazioni a un livello ampio. È intrinsecamente multimodale, ovvero può gestire testo, immagini e video contemporaneamente”, ha detto Nayak a VentureBeat in un’intervista telefonica. “Mantiene la promessa che possiamo porre query molto complesse e suddividerle in una serie di componenti più semplici, in cui è possibile ottenere risultati per le diverse query più semplici e quindi unirle insieme per capire cosa si vuole veramente”.

 
Google conduce molti test nella Ricerca per mettere a punto i risultati che gli utenti alla fine vedono. Nel 2020, un anno in cui l’azienda ha lanciato oltre 3.600 nuove funzionalità, ha condotto oltre 17.500 esperimenti sul traffico e oltre 383.600 controlli di qualità, afferma Nayak.


Tuttavia, data la natura complessa del linguaggio, emergono problemi. Ad esempio, una ricerca di “La suola è buona per i bambini” diversi anni fa – “suola” che si riferiva al pesce, in questo caso – ha mostrato pagine web che confrontavano le scarpe per bambini.

Nel 2019, Google ha deciso di affrontare il problema dell’ambiguità linguistica con una tecnologia chiamata Bidirezionale Encoder Representations from Transformers, o BERT . Basandosi sulla ricerca dell’azienda sull’architettura del modello Transformer, BERT costringe i modelli a considerare il contesto di una parola osservando le parole che vengono prima e dopo di essa.

Risalente al 2017, Transformer è diventata l’architettura di scelta per le attività in linguaggio naturale, dimostrando un’attitudine a riassumere documenti, tradurre tra lingue e analizzare sequenze biologiche. Secondo Google, BERT ha aiutato Search a comprendere meglio il 10% delle query negli Stati Uniti in inglese, in particolare ricerche più lunghe e conversazionali in cui preposizioni come “for” e “to” contano molto per il significato.

Ad esempio, il precedente algoritmo di ricerca di Google non capirebbe che “il viaggiatore brasiliano per gli Stati Uniti nel 2019 ha bisogno di un visto” riguarda un brasiliano che viaggia negli Stati Uniti e non viceversa. Con BERT, che comprende l’importanza della parola “a” nel contesto, la Ricerca Google fornisce risultati più pertinenti per la query.
“BERT ha iniziato a cogliere alcune delle sottigliezze e delle sfumature del linguaggio, il che è stato piuttosto eccitante, perché il linguaggio è pieno di sfumature e sottigliezze”, ha detto Nayak.

Ma BERT ha i suoi limiti, motivo per cui i ricercatori della divisione AI di Google hanno sviluppato un successore in MUM. MUM è circa 1.000 volte più grande di BERT e viene addestrato su un set di dati di documenti dal Web, con contenuti come immagini e testo espliciti, pieni di odio, offensivi e disinformativi e filtrati. È in grado di rispondere a domande in 75 lingue, comprese domande come “Voglio fare un’escursione al Monte Fuji il prossimo autunno: cosa devo fare per prepararmi?” e rendersi conto che quel “prepararsi” potrebbe comprendere cose come l’allenamento fitness e il tempo.

MUM può anche appoggiarsi al contesto e altro nelle immagini e nei dialoghi. Ho ricevuto una foto di scarponi da trekking e ho chiesto “Posso usarlo per fare un’escursione sul Monte Fuji?” La MAMMA può comprendere il contenuto dell’immagine e l’intento dietro la domanda, facendo sapere all’interrogante che gli scarponi da trekking sarebbero appropriati e indirizzandoli verso una lezione in un blog sul Monte Fuji.

MUM, che può trasferire la conoscenza tra le lingue e non ha bisogno di essere insegnato esplicitamente come completare attività specifiche, ha aiutato gli ingegneri di Google a identificare più di 800 varianti di nome COVID-19 in oltre 50 lingue. Con solo pochi esempi di nomi di vaccini ufficiali, MUM è stata in grado di trovare variazioni interlinguistiche in pochi secondi rispetto alle settimane che potrebbero impiegare un team umano.

 
“MUM ti offre la generalizzazione da lingue con molti dati a lingue come l’hindi e così via, con pochi dati nel corpus”, ha spiegato Nayak.

Ricerca multimodale
Dopo i piloti interni nel 2020 per vedere i tipi di query che MUM potrebbe essere in grado di risolvere, Google afferma che sta espandendo MUM ad altri angoli della ricerca.

Presto, MUM consentirà agli utenti di scattare una foto di un oggetto con Lens, ad esempio una maglietta, e cercare sul Web un altro oggetto, ad esempio calzini, con uno schema simile. MUM consentirà inoltre a Lens di identificare un oggetto non familiare a un ricercatore, come le ruote dentate posteriori di una bicicletta, e di restituire i risultati della ricerca in base a una query. Ad esempio, data un’immagine di ruote dentate e la query “Come posso risolvere questa cosa”, MUM mostrerà le istruzioni su come riparare le ruote dentate della bicicletta.

“La mamma può capire che quello che stai cercando sono le tecniche per il fissaggio e qual è quel meccanismo”, ha detto Nayak. “Questo è il tipo di cosa che promette il multimodel Lens e prevediamo di lanciarlo a volte, si spera, all’inizio del prossimo anno”.
Per inciso, Google ha presentato la “modalità Lens” per iOS per gli utenti negli Stati Uniti, che aggiunge un nuovo pulsante nell’app Google per rendere tutte le immagini su una pagina web ricercabili tramite Lens. Un’altra novità è Lens in Chrome, disponibile nei prossimi mesi a livello globale, che consentirà agli utenti di selezionare immagini, video e testo su un sito Web con Lens per visualizzare i risultati della ricerca nella stessa scheda senza lasciare la pagina in cui si trovano.

In Ricerca, MUM alimenterà tre nuove funzionalità: Cose da sapere, Perfeziona e amplia e Argomenti correlati nei video. Cose da sapere richiede una query ampia, come “dipinti acrilici”, e mette in evidenza le risorse Web come istruzioni dettagliate e stili di pittura. Affina e amplia trova argomenti più ristretti o generali relativi a una query, come “stili di pittura” o “pittori famosi”. Per quanto riguarda gli argomenti correlati nei video, seleziona gli argomenti nei video, come “materiali per pittura acrilica” e “tecniche acriliche”, in base all’audio, al testo e al contenuto visivo di tali video.

 
“MUM ha un’intera serie di applicazioni specifiche”, ha affermato Nayak, “e stanno iniziando ad avere un impatto su molti dei nostri prodotti”.

Potenziali pregiudizi
Un numero crescente di ricerche mostra che i modelli multimodali sono soggetti agli stessi tipi di pregiudizi dei modelli linguistici e di visione artificiale. La diversità di domande e concetti coinvolti in attività come la risposta visiva alle domande , così come la mancanza di dati di alta qualità, spesso impediscono ai modelli di imparare a “ragionare”, portandoli a fare ipotesi plausibili basandosi sulle statistiche del set di dati. Ad esempio, in uno studio che coinvolge 7 modelli multimodali e 3 tecniche di riduzione del bias, i coautori hanno scoperto che i modelli non sono riusciti a rispondere a domande che coinvolgono concetti poco frequenti, suggerendo che c’è del lavoro da fare in quest’area.

 
Google ha avuto la sua giusta dose di problemi con il pregiudizio algoritmico, in particolare nel dominio della visione artificiale. Nel 2015, un ingegnere del software ha sottolineato che gli algoritmi di riconoscimento delle immagini in Google Foto stavano etichettando i suoi amici neri come “gorilla”. Tre anni dopo, Google non era andato oltre una correzione frammentaria che bloccava semplicemente le ricerche di categorie di immagini per “gorilla”, “scimpanzé”, “scimpanzé” e “scimmia” piuttosto che riprogettare l’algoritmo. Più di recente, i ricercatori hanno dimostrato che Google Cloud Vision, il servizio di visione artificiale di Google, etichettava automaticamente l’immagine di una persona dalla pelle scura che impugnava un termometro “pistola” mentre etichettava un’immagine simile con una persona dalla pelle chiara “dispositivo elettronico”.

 “I modelli [multimodali], che sono addestrati su larga scala, producono capacità emergenti, rendendo difficile capire quali siano i loro pregiudizi e modalità di errore. Tuttavia, gli incentivi commerciali sono per questa tecnologia da implementare nella società in generale”, ha detto a VentureBeat in una recente e-mail Percy Liang, facoltà di Stanford HAI e professore di informatica.

 
Senza dubbio cercando di evitare di generare una serie di pubblicità negativa , Google afferma che si è preoccupato di mitigare i pregiudizi in MUM, principalmente addestrando il modello su dati di “alta qualità” e facendo valutare agli umani i risultati di ricerca di MUM. “Utilizziamo [un] processo di valutazione per cercare problemi di distorsione in qualsiasi insieme di applicazioni che lanciamo”, ha affermato Nayak. “Quando lanciamo cose che sono potenzialmente rischiose, facciamo il possibile per essere più cauti”.

Di ihal