A volte hai già una grande quantità di dati storici e una conoscenza precisa della verità da ogni punto di vista dai dati, nel qual caso il set di dati è già etichettato e tutto ciò che devi fare è pulire, normalizzare, sottocampionare, analizzare e formare un modello e quindi iterare fino a quando non si ottiene una buona valutazione.

Da quando il termine “crowdsourcing” è stato coniato nel 2006, è stata una parola d’ordine per le aziende tecnologiche e le istituzioni sociali. Nel settore tecnologico, il crowdsourcing è determinante per la verifica degli algoritmi di apprendimento automatico, che, a sua volta, migliorano l’esperienza dell’utente.

Ma più spesso, tutto ciò che possiedi è un grande secchio di dati grezzi non etichettati e il processo di creazione manuale di una verità di base coerente potrebbe essere la fase più dolorosa del tuo flusso di lavoro di apprendimento automatico. Alcuni di questi scenari sono ben coperti da aziende e servizi che forniscono competenze nell’ambito del proprio contesto specifico (linguistica, semantica, statistica, ecc.), Solitamente a costi molto elevati. Altri contesti, ad esempio nel caso di annotazioni multimediali, sono molto più difficili da gestire e si scopre che il crowdsourcing potrebbe essere un ottimo modo per ridurre costi e tempo.

Cos’è Amazon Mechanical Turk?
Mechanical Turk – o MTurk – è un marketplace di crowdsourcing in cui tu (come Requester) puoi pubblicare e coordinare una vasta serie di Human Intelligence Tasks (HIT), come classificazione, tagging, sondaggi e trascrizioni. Altri utenti (come Lavoratori) possono scegliere le tue attività e guadagnare una piccola somma di denaro per ogni attività completata.

Come costruire un modello dai risultati di Mechanical Turk
Amazon Mechanical Turk ti avviserà quando i risultati saranno pronti e avrai finalmente un set di dati etichettato. In alcuni casi, alcuni record potrebbero non aver raggiunto alcun consenso, quindi è possibile migliorare le istruzioni del compito o, se il set di dati rimanente è grande e statisticamente distribuito abbastanza da generare un modello utile, semplicemente scartarle.

Conclusione
Amazon Mechanical Turk e altre piattaforme di crowdsourcing possono essere molto utili per aiutarti a creare il tuo modello di apprendimento automatico da un set di dati senza etichetta.

Altre soluzioni potrebbero coinvolgere tecniche di apprendimento non supervisionate, come il clustering e le reti neurali, che sono abbastanza buone per identificare schemi e strutture in dati non etichettati. Tuttavia, per la maggior parte dei compiti, sono ancora molto indietro rispetto all’intelligenza umana. Le soluzioni “low-tech” che coinvolgono veri umani probabilmente porteranno una precisione molto più elevata, con un compromesso accettabile tra costi, complessità e velocità.

Di ihal

Lascia un commento