Alcuni dei più importanti esperti di intelligenza artificiale, come Andrew Ng (Adjunct Professor a Stanford, co-fondatore e capo di Google Brain, ex capo scienziato di Baidu, co-fondatore di Coursera ), hanno iniziato a sostenere un passaggio dal modello- incentrata sull’IA incentrata sui dati. Se si pensa a “ Sistemi AI = Dati + Codice (modello/algoritmo) ”, c’è una naturale propensione a dare i dati per scontati (non modificabili, in gran parte gestiti) e a lavorare per affinare gli algoritmi per ottenere buoni risultati. In altre parole, i dati servono come carburante per gli algoritmi, che guidano gli insight, che portano all’azione e, al fine di fornire i migliori risultati, perfezionano il motore. La maggior parte dei benchmark accademici mantiene i dati fissi e consente ai team di lavorare sul codice.

Mettendo in discussione questi presupposti, Andrew Ng ha organizzato una competizione chiedendo ai team di mantenere il codice fisso e di lavorare sui dati.

Ma cosa comporterebbe esattamente un simile approccio incentrato sui dati?

Quali scelte guiderebbe? 

Prima di affrontare questo compromesso, offriamo alcune riflessioni sui dati stessi. La qualità e la coerenza dei dati sono influenzate dal rumore delle caratteristiche (attributo) o dal rumore dell’etichetta. Il rumore delle caratteristiche descrive le impurità all’interno dei valori osservati delle caratteristiche (attributi). Il rumore dell’etichetta è causato da alterazioni all’interno dell’etichetta e si verifica quando a un’etichetta viene assegnato un valore in modo errato. Come regola generale, i data scientist hanno trovato il modo di mitigare il rumore nelle caratteristiche, ma il rumore dell’etichetta è ancora molto comune e molto problematico. Il rumore dell’etichetta può verificarsi quando:

Le informazioni fornite agli esperti non sono sufficienti per eseguire un’etichettatura affidabile
Per ridurre i costi, vengono impiegati non esperti assistiti da strutture di etichettatura automatizzate
Una certa etichetta è soggettiva e porta a interpretazioni diverse per gli stessi dati
Errori dell’utente: i clienti forniscono la risposta sbagliata
L’IA incentrata sul modello si concentra sulla gestione delle incoerenze all’interno dei dati tramite l’algoritmo stesso. Se la quantità di rumore è relativamente piccola, molti algoritmi possono gestirla. Gli algoritmi possono anche pulire i dati osservando valori anomali e anomalie. Infine, comprendendo meglio il tipo di rumore (ad es. rumore caratteristico rispetto al rumore dell’etichetta), possiamo progettare approcci specifici per mitigarlo. L’IA incentrata sui dati si concentra sul miglioramento della qualità e della coerenza dei dati attraverso lo sviluppo di quadri di raccolta dati migliori. 

Selezionare l’approccio giusto è fondamentale per garantire che stiamo sviluppando l’IA in modo appropriato. È necessario considerare tre dimensioni: rumore dell’etichetta, perseguibilità e quantità di dati.

Rumore dell’etichetta
Per i set di dati con un rumore di etichetta basso, un approccio incentrato sul modello è una scelta ovvia. Se il rumore viene introdotto ” completamente a caso “, l’IA incentrata sul modello può gestirlo. Se il rumore può essere introdotto sia ” a caso ” che ” non a caso “, è necessaria una comprensione più approfondita prima di selezionare l’opzione giusta.

I migliori aggiornamenti sull’intelligenza artificiale: il futuristico veicolo elettrico basato sull’intelligenza artificiale di Baidu pronto a prendere il sopravvento sull’eredità di Volvo nel 2023

La nostra capacità di intervenire per correggere i dati o rettificare gli errori è troppo onerosa o altrimenti irrealizzabile?

I recenti aggiornamenti sulle politiche sulla privacy limitano l’accesso delle aziende ai dati sul coinvolgimento degli utenti e, di conseguenza, tutte le risposte al coinvolgimento degli utenti tramite e-mail vengono contrassegnate come aperte. In questi casi, l’intervento manuale per correggere i set di dati non è fattibile e gli approcci incentrati sul modello sono le uniche opzioni.

D’altra parte, se l’azionabilità/l’intervento è fattibile, possiamo raccogliere più campioni e/o migliorare la coerenza dell’etichettatura per aiutare a costruire modelli migliori. Nella produzione, la classificazione degli errori utilizzando le immagini potrebbe essere eseguita in modo più coerente e quindi si può investire per consentire l’intervento e correggere gli errori.

Quantità di dati/Big Data per algoritmi di machine learning
Anche la dimensione dei dati è una dimensione importante. Se il set di dati è piccolo e la sperimentazione per la nuova raccolta di dati è costosa, gli approcci di IA incentrati sui dati sono superiori. Quando abbiamo a che fare con i big data, si possono prendere in considerazione approcci ibridi per gestire le incoerenze.

Notizie della settimana su Adtech: Rapporto IAS: pubblicità mobile, marketing sui social media e prevenzione delle frodi pubblicitarie nel 2022

Quindi, prima di decidere sugli approcci incentrati sui dati o incentrati sul modello, valutare quanto segue.

Come vengono generati i dati?
Qual è il livello di intervento umano in questo processo?
E qual è il volume e la velocità dei dati?
Durante lo sviluppo di soluzioni di intelligenza artificiale, l’attenzione dovrebbe essere rivolta sia ai dati che ai modelli. Dove spendi più energia può essere dettato dalla tua risposta alle domande precedenti. Per massimizzare le prestazioni sono necessari carburante pulito e un motore accuratamente messo a punto.

Di ihal