AI e dati: evitare i trucchi

Quando si tratta di un progetto di intelligenza artificiale (Artificial Intelligence), di solito c’è molta eccitazione. L’attenzione è spesso rivolta all’utilizzo di algoritmi di nuova concezione, come le reti neurali di deep learning, per sbloccare approfondimenti che trasformeranno il business.

Ma in questo processo, qualcosa si perde spesso: l’importanza di stabilire il piano giusto per i dati. Tieni presente che l’80% del tempo di un progetto di IA può essere speso per identificare, archiviare, elaborare e pulire i dati.

“Il grande trambusto sta avendo dati cattivi nutriti nei tuoi sistemi di IA”, ha detto David Linthicum, che è Chief Cloud Strategy Officer presso Deloitte Consulting LLP . “È intelligente solo quanto i dati a cui è consentito accedere. La qualità dei dati è della massima importanza. L’uso del cloud computing consente di archiviare enormi quantità di dati a costi molto bassi, il che significa che puoi permetterti di fornire tutti i dati necessari ai tuoi sistemi di IA “.

Il processo dei dati può certamente essere rischioso. Anche i cambiamenti sottili possono avere un impatto importante sui risultati.

Quindi cosa fare per evitare i problemi? Bene, ecco alcune strategie da considerare:

Obiettivo chiaro : la maggior parte dei progetti di intelligenza artificiale per le aziende tradizionali riguardano la riduzione dei costi, l’aumento dei ricavi o il mantenimento della concorrenza. Ma per la maggior parte, gli obiettivi possono essere facilmente confusi.

POTREBBE PIACERTI ANCHE
Secondo Stuart Dobbie, che è Product Owner di Callsign : “Fondamentalmente, il problema ricorrente principale rimane semplice: molte aziende non riescono a esprimere chiaramente il loro problema commerciale prima di scegliere le tecnologie e le competenze necessarie per risolverlo.”

La tentazione è di complicare le cose. Ma naturalmente, questo può voler dire che un progetto di intelligenza artificiale andrà fuori dai binari e sarà uno spreco di risorse.

Overfitting : sembra che più variabili abbia un modello di intelligenza artificiale, meglio è, giusto? Non proprio. Se ci sono un gran numero di variabili, il modello probabilmente non rifletterà ciò che sta accadendo nel mondo reale. Questo è noto come sovralimentazione. Ed è un problema comune con i dati.

“L’overfitting, ad esempio, non è solo un problema di dati”, ha affermato Dan Olley, che è Global EVP e CTO di Elsevier , “ma anche un problema di formazione del modello. Tutto questo torna a progettare attentamente la formazione e il collaudo dei modelli e incorporare un gruppo eterogeneo di input per convalidare la formazione e le prove. “

Rumore : questo è il risultato di esempi errati (rumore di classe) o errori nei valori degli attributi (rumore degli attributi). La buona notizia è che il rumore di classe può essere facilmente identificato ed escluso. Ma il rumore degli attributi è un’altra cosa. Questo di solito non si presenta come un outlier.

“Negli algoritmi di apprendimento automatico, i più validi hanno l’identificazione / eliminazione anomala incorporata nella logica dell’algoritmo”, ha affermato Prasad Vuyyuru, partner per l’Enterprise Insights Practice di Infosys Consulting . “Lo scienziato dei dati o la PMI dovranno ancora applicare filtri o alberi decisionali aggiuntivi durante la fase di apprendimento per escludere alcuni dati che potrebbero essere distorti dal campione.”

Un modo è utilizzare la convalida incrociata, ad esempio dividendo i dati in dieci pieghe di dimensioni simili. Quindi formerai l’algoritmo su nove pieghe e il computer valuterà la misura sull’ultimo, che dovrebbe essere eseguito dieci volte.

“Dovremmo sempre seguire Ockham’s Razor che afferma che i migliori modelli di Machine Learning sono semplici modelli che si adattano bene ai dati”, ha affermato Vuyyuru.

Manutenzione : i modelli di intelligenza artificiale non sono statici. Migliorano col tempo. Oppure, ancora una volta, potrebbero effettivamente decadere nel tempo perché i dati non sono adeguatamente aggiornati. In altre parole, i dati necessitano di manutenzione continua.

“I sistemi di intelligenza artificiale non sono come altri software”, ha dichiarato Kurt Muehmel, che è il vicepresidente di Sales Engineering presso Dataiku . “Non possono essere liberati una volta e poi dimenticati. Richiedono molta manutenzione perché le persone cambiano, i cambiamenti di dati e i modelli possono andare alla deriva nel tempo. Man mano che sempre più aziende sviluppano sistemi di intelligenza artificiale, la questione della manutenzione come trucchi diventerà rapidamente all’avanguardia. “

Di ihal

Lascia un commento