Facebook imposta un nuovo compito per AI: guida un turista virtuale intorno a New York
La sfida è progettata per stimolare la ricerca nel linguaggio e nella percezione dell’IA
Come insegni ai computer a capire il linguaggio – non solo trascrivi il linguaggio umano, ma in realtà comprendi ciò che qualcuno sta dicendo? È una delle grandi sfide dell’IA e ancora non conosciamo il modo migliore per affrontare il problema. Il laboratorio di ricerca AI di Facebook, FAIR, ha un’idea: insegnare alle IA a capire la lingua facendole guidare i turisti virtuali intorno a New York.
FAIR sta rilasciando quello che chiama Talk the Walk , un set di dati progettato per essere utilizzato da altri ricercatori. Comprende tre elementi: piccole mappe dei quartieri di New York City (ciascuna di un paio di blocchi di larghezza), foto a 360 gradi delle stesse posizioni e esempi di dialoghi di esseri umani che si guidano l’un l’altro intorno a questi quartieri. Fondamentalmente, è tutto ciò che potrebbe essere necessario per insegnare a una IA per affrontare questo compito stesso.
“L’APPRENDIMENTO INCARNATO” È INCENTRATO SULL’APPRENDIMENTO COME FANNO GLI UMANI
Questo può sembrare un po ‘strano come metodo di allenamento dell’IA, ma FAIR sta attingendo a un campo di ricerca noto come “apprendimento linguistico radicato” o “apprendimento incarnato”. Questa teoria dice che l’unico modo in cui possiamo insegnare all’IA è capire il linguaggio come gli umani è quello di farli imparare come facciamo noi – nel mondo reale.
Il ricercatore FAIR Douwe Kiela mette a confronto gli attuali metodi di formazione per dare a qualcuno un dizionario di una lingua straniera e aspettandosi che imparino da soli. “Con l’elaborazione del linguaggio naturale, quello che tendiamo a fare è prendere un corpus grande come Wikipedia e [ottenere AI] per cercare modelli statistici, che è molto diverso da come gli umani imparano”, dice Kiela. “Gli umani imparano la lingua in modo efficiente perché possiamo mettere in relazione le nostre esperienze con il mondo che ci circonda.”
Naturalmente, le piccole fette di New York City non sono rappresentative di tutto il mondo. Ma l’idea è che se riusciamo a far sì che l’intelligenza artificiale abbia successo in questo particolare compito, le tecniche utilizzate dai ricercatori saranno applicabili altrove. Questo è un modo consolidato per guidare i progressi nell’IA, e dataset notevoli (come ImageNet) sono spesso accreditati spingendo l’intero campo in avanti.I ricercatori di FAIR suggeriscono che le squadre cercano di insegnare a due agenti di IA a navigare nelle loro mappe virtuali di New York. Un agente sarebbe un “turista” che può vedere le foto a 360 gradi ma non la mappa e l’altra una “guida” che può vedere la mappa ma non le foto. Gli agenti devono quindi parlare tra loro per stabilire la posizione del turista e aiutarli a navigare in un altro punto sulla mappa. Il turista cercherebbe punti di riferimento vicini, come ristoranti, bar e caffetterie, e la guida darebbe loro indicazioni.
Pensa a Talk to Walk come a uno di quei primi giochi di avventura fantasy in cui ti trovi di fronte a un corridoio dei sotterranei, e devi fare una scelta come “vai a nord” o “vai a sud” o “gira intorno”. Ma invece di esplorare un dungeon per trovare un tesoro, sei bloccato nel quartiere finanziario di New York in cerca di un parrucchiere chiamato Snip Dogg.
I ricercatori del FAIR dicono di non essere stati in grado di creare agenti di intelligenza artificiale che possano ancora affrontare questo problema. (Perché? “Perché è super difficile!”, Dice Kiela.) Ma si aspettano che i team inizino a costruire bot che possano guidare i turisti virtuali in modo competente nei prossimi anni. FAIR ha stabilito i risultati di base per un sottoprocesso noto come “localizzazione”, che significa portare l’IA turistica a trasmettere alla guida AI dove si trovano sulla mappa.
L’attività complessiva di Talk to Walk è impegnativa perché combina tanti diversi elementi della percezione e del linguaggio dell’IA. Gli agenti devono essere in grado di riconoscere l’ambiente circostante, trasmettere tali informazioni e quindi interagire con il mondo. “L’obiettivo finale è avere assistenti di intelligenza artificiale che capiscano meglio gli umani perché capiscono meglio il mondo”, afferma Kiela. “Questo è qualcosa che è applicabile a Facebook e a qualsiasi azienda nel mondo.”