L’algoritmo batte anche gli umani in alcuni compiti limitati

L’algoritmo di didascalia delle immagini verrà utilizzato per migliorare app come Seeing AI
Microsoft ha sviluppato un nuovo algoritmo di didascalia delle immagini che supera l’accuratezza umana in alcuni test limitati. Il sistema di intelligenza artificiale è stato utilizzato per aggiornare l’app assistente dell’azienda per i non vedenti, Seeing AI , e sarà presto incorporato in altri prodotti Microsoft come Word, Outlook e PowerPoint. Lì, verrà utilizzato per attività come la creazione di testo alternativo per le immagini, una funzione particolarmente importante per aumentare l’accessibilità.

“Idealmente, tutti dovrebbero includere testo alternativo per tutte le immagini nei documenti, sul Web, nei social media, poiché ciò consente alle persone non vedenti di accedere ai contenuti e partecipare alla conversazione”, ha affermato Saqib Shaikh, responsabile dell’ingegneria del software di Microsoft Il team di AI in un comunicato stampa. “Ma, ahimè, le persone no. Quindi, ci sono diverse app che utilizzano i sottotitoli delle immagini per riempire il testo alternativo quando manca. “

IL NUOVO ALGORITMO È DUE VOLTE PIÙ BUONO DI QUANTO AFFERMA IL SUO PREDECESSORE MICROSOFT
Queste app includono Seeing AI di Microsoft, che la società ha rilasciato per la prima volta nel 2017 . Seeing AI usa la visione artificiale per descrivere il mondo visto attraverso una fotocamera dello smartphone per i non vedenti. Può identificare oggetti domestici, leggere e scansionare testi, descrivere scene e persino identificare amici. Può anche essere utilizzato per descrivere le immagini in altre app, inclusi client di posta elettronica, app di social media e app di messaggistica come WhatsApp.

Microsoft non rivela i numeri degli utenti per Seeing AI, ma Eric Boyd, vicepresidente aziendale di Azure AI, ha dichiarato a The Verge che il software è “una delle app principali per le persone cieche o ipovedenti”. Seeing AI è stata votata come migliore app o migliore app assistiva per tre anni consecutivi da AppleVis, una comunità di utenti iOS non vedenti e ipovedenti.

Il nuovo algoritmo di didascalia delle immagini di Microsoft migliorerà significativamente le prestazioni di Seeing AI, poiché è in grado non solo di identificare gli oggetti ma anche di descrivere in modo più preciso la relazione tra di loro. Quindi, l’algoritmo può guardare un’immagine e non solo dire quali elementi e oggetti contiene (ad esempio, “una persona, una sedia, una fisarmonica”) ma come stanno interagendo (ad esempio, “una persona è seduta su una sedia e suonare la fisarmonica “). Microsoft afferma che l’algoritmo è due volte più buono del suo precedente sistema di didascalia delle immagini, in uso dal 2015.

L’algoritmo, descritto in un documento di pre-stampa pubblicato a settembre , ha ottenuto i punteggi più alti in assoluto su un benchmark di didascalia di immagini noto come “nocaps”. Questo è un quadro di valutazione leader del settore per i sottotitoli di immagini, sebbene abbia i suoi vincoli.

Il benchmark nocaps consiste di oltre 166.000 didascalie generate dall’uomo che descrivono circa 15.100 immagini prese dal set di dati Open Images . Queste immagini coprono una vasta gamma di scenari, dallo sport alle foto delle vacanze, alla fotografia di cibo e altro ancora. (Puoi avere un’idea della combinazione di immagini e didascalie esplorando il set di dati nocaps qui o guardando la galleria sotto.) Gli algoritmi vengono testati sulla loro capacità di creare didascalie per queste immagini che corrispondono a quelle degli esseri umani.

È importante notare, tuttavia, che i benchmark nocaps catturano solo un piccolo frammento della complessità dei sottotitoli delle immagini come attività generale. Sebbene Microsoft affermi in un comunicato stampa che il suo nuovo algoritmo “descrive le immagini così come fanno le persone”, questo è vero solo nella misura in cui si applica a un sottoinsieme molto piccolo di immagini contenute nei nocaps.

“IL SUPERAMENTO DELLE PRESTAZIONI UMANE SU NOCAPS NON È UN INDICATORE DEL FATTO CHE I SOTTOTITOLI DELLE IMMAGINI SIANO UN PROBLEMA RISOLTO”
Come Harsh Agrawal, uno dei creatori del benchmark, ha dichiarato a The Verge tramite e-mail: “Il superamento delle prestazioni umane sui nocaps non è un indicatore del fatto che i sottotitoli delle immagini siano un problema risolto”. Argawal ha osservato che le metriche utilizzate per valutare le prestazioni sui nocap “sono correlate solo approssimativamente con le preferenze umane” e che il benchmark stesso “copre solo una piccola percentuale di tutti i possibili concetti visivi”.

“Come con la maggior parte dei benchmark, [il] nocaps benchmark è solo un indicatore approssimativo delle prestazioni dei modelli nell’attività”, ha affermato Argawal. “Il superamento delle prestazioni umane sui nocap non indica affatto che i sistemi di intelligenza artificiale superino gli umani nella comprensione delle immagini”.

Questo problema – supponendo che le prestazioni su un benchmark specifico possano essere estrapolate più in generale come prestazioni sull’attività sottostante – è comune quando si tratta di esagerare le capacità dell’IA. In effetti, Microsoft è stata criticata dai ricercatori in passato per aver fatto affermazioni simili sulla capacità dei suoi algoritmi di comprendere la parola scritta.

Tuttavia, la didascalia delle immagini è un’attività che ha visto enormi miglioramenti negli ultimi anni grazie all’intelligenza artificiale e gli algoritmi di Microsoft sono sicuramente all’avanguardia. Oltre a essere integrata in Word, Outlook e PowerPoint, l’intelligenza artificiale con sottotitoli di immagini sarà disponibile anche come modello autonomo tramite il cloud di Microsoft e la piattaforma di intelligenza artificiale Azure.

Di ihal