I test dimostrano che gli assistenti vocali mancano ancora di intelligenza critica
Sempre più spesso, gli assistenti vocali di fornitori come Amazon, Apple, Google, Microsoft e altri stanno iniziando a trovare la loro strada in una miriade di dispositivi, prodotti e strumenti utilizzati quotidianamente. Mentre un tempo avremmo potuto interagire solo con i sistemi di conversazione sui nostri telefoni, apparecchi desktop dedicati o computer desktop, ora possiamo trovare interfacce di conversazione su una vasta gamma di apparecchi e prodotti, dai televisori alle automobili e persino ai forni per tostapane. Presto, qualsiasi dispositivo con cui possiamo interagire avrà un’interfaccia di conversazione audio invece di pulsanti o schermate da digitare o fare clic. L’alba dell’era dell’informatica conversazionale è qui.
Tuttavia, questi dispositivi sono abbastanza intelligenti da gestire l’ampia gamma di domande che gli umani pongono? L’obiettivo di scoprire quanto siano realmente intelligenti questi sistemi è l’obiettivo del più recente benchmark di Assistente vocale di Cognilytica che mira a testare le capacità cognitive dei dispositivi di assistente vocale più diffusi sul mercato. (Divulgazione: sono un analista principale di Cognilytica).
Nella sua seconda iterazione, il Voice Assistant Benchmark pone 120 domande raggruppate in 12 categorie di vari livelli di difficoltà cognitiva. Queste domande mirano a testare non solo la capacità dei dispositivi di comprendere le domande poste, ma anche il loro grafico di conoscenza e le capacità cognitive sottostanti. I risultati delle domande poste vengono valutati in una delle quattro categorie: le risposte di categoria 0 sono quelle in cui il dispositivo non è stato in grado di rispondere alla domanda o ha predefinito l’utente a una ricerca o altra risposta generica. Le risposte di categoria 1 sono quelle in cui il dispositivo risponde con una risposta irrilevante o errata. Le risposte di categoria 2 sono quelle in cui il dispositivo risponde in modo tale che un essere umano debba decidere quale sia la risposta giusta. Le risposte di categoria 3 sono chiare,
Ogni risposta è anche contrassegnata con se la risposta è “adeguata” per rispondere alla domanda specifica che viene posta. Nella maggior parte dei casi, è necessario che una risposta di Categoria 3 sia adeguata, ma in alcune situazioni le risposte di Categoria 0 sono preferite quando preferiamo che il dispositivo non tenti di rispondere a qualcosa di intenzionalmente ambiguo o addirittura instabile. Il benchmark raccoglie tutte le risposte adeguate e quindi le confronta con quello che potrebbe essere il punteggio più alto. Poiché questi backend stanno migliorando regolarmente, questo benchmark viene ripetuto regolarmente per vedere come le risposte dell’assistente vocale cambiano nel tempo.
Risultati dal benchmark
Mentre gli assistenti vocali in questo round hanno ottenuto risultati decisamente migliori rispetto a quelli della precedente prima versione del benchmark , si sono comunque comportati in modo inadeguato nel suo insieme. Per l’attuale benchmark, Alexa ha fornito il maggior numero di risposte adeguate su 49 domande su 144 (34,7%) mentre Google ha seguito da vicino con 48 domande su 144 che hanno risposto adeguatamente (34,0%). Cortana di Microsoft ha mostrato il più grande miglioramento rispetto al benchmark precedente con 46 risposte adeguate su 144 (31,9%). Siri di Apple segue il pacchetto con 35 su 144 risposte adeguate (24,3%). I grafici sottostanti delineano le risposte globali adeguate e le risposte totali per ogni categoria 0-3.
Risposte interessanti da Assistenti vocali
La cosa più interessante in questi benchmark è che è chiaro che le compagnie di assistenza vocale lavorano continuamente sui loro grafici della conoscenza e sulla tecnologia AI basata sul cloud che alimenta l’intelligenza di questi dispositivi. Dopotutto, l’intelligenza di questi dispositivi non è nel dispositivo stesso ma nella grande infrastruttura nel cloud alimentata da molta potenza di calcolo e dati per supportarlo. Quindi, in sostanza, ciò che sta realmente testando è l’intelligenza del grande sistema back-end e non ciò che è sul dispositivo stesso. Dal benchmark, è chiaro che ci sono prove che queste aziende stanno lavorando molto duramente per migliorare e ampliare i loro dati sottostanti e questi sistemi di conversazione continuano a migliorare nel tempo.
Tutti i risultati delle domande e risposte del benchmark sono registrati su video per documentare e mantenere trasparenti i risultati della categoria, e anche così possiamo avere alcune prove di come questi sistemi stanno migliorando nel tempo. Di conseguenza, Cognilytica ha prodotto una serie di video interessanti che evidenziano e mostrano alcune delle risposte insolite e interessanti degli assistenti vocali:
Video di riferimento: confronto delle risposte degli assistenti vocali
Quanto siamo lontani da assistenti vocali veramente intelligenti?
Dato che questi assistenti vocali sembrano ancora fallire con domande abbastanza semplici e dirette, ci fa chiedere: quanto siamo lontani da un sistema di conversazione intelligente e veramente prezioso? In realtà siamo molto più vicini di quanto possa sembrare. Mentre questi dispositivi hanno ancora molta strada da fare per dimostrare che possono rispondere in modo affidabile alla maggior parte delle domande, il tasso di miglioramento è impressionante. I principali fornitori stanno lavorando su team di grandi dimensioni per migliorare questi dispositivi. Solo Amazon ha rivendicato oltre 10.000 dipendenti nella loro divisione Alexa. E le notizie continuano a rivelare come Microsoft, Google e Apple stiano mettendo gli umani in contatto, migliorando i dispositivi ascoltando le conversazioni. Sebbene questa sia sicuramente una pratica controversa, e probabilmente una preoccupazione legata alla conformità e alle normative,
Pertanto, possiamo aspettarci continue capacità cognitive nei dispositivi e parametri di riferimento come sopra dovrebbero continuare a mostrare miglioramenti nel tempo. E benchmark come questo aiuteranno a mostrare quanto velocemente questi assistenti vocali continuano a migliorare.