Ripristino della credibilità dell’output della pipeline di machine learning tramite v
Tutti i domini verranno capovolti dal machine learning (ML). Questa è la storia coerente che continuiamo a sentire negli ultimi anni. Ad eccezione dei praticanti e di alcuni smanettoni, la maggior parte delle persone non è consapevole delle sfumature del ML. Il ML è sicuramente legato all’intelligenza artificiale (AI). Se si tratta di un sottoinsieme puro o di un’area strettamente correlata dipende da chi chiedi. Il sogno dell’IA generale per le macchine di risolvere problemi inediti in tutti i domini utilizzando abilità cognitive si era trasformato nell’inverno dell’IA poiché questo approccio non ha prodotto risultati per più di quaranta o cinquanta anni. La rinascita del ML ha cambiato il campo. Il machine learning è diventato trattabile con l’aumentare della potenza dei computer e la disponibilità di molti più dati su domini diversi per l’addestramento dei modelli. Il ML ha distolto l’attenzione dal tentativo di modellare il mondo intero utilizzando dati e logica simbolica per fare previsioni utilizzando metodi statistici su domini ristretti. Il deep learning è caratterizzato dall’assemblaggio di più livelli ML, riportandoci così al sogno dell’IA generale. Ad esempio, auto senza conducente.
In generale, ci sono tre approcci separati in ML; uno è chiamato apprendimento supervisionato, il secondo apprendimento semi-supervisionato e il terzo è apprendimento non supervisionato. Le loro differenze derivano dal grado di coinvolgimento umano che guida il processo di apprendimento.
Il successo del machine learning deriva dalla capacità dei modelli addestrati attraverso i dati di un particolare dominio chiamato training set di fare previsioni in situazioni del mondo reale nello stesso dominio. In qualsiasi pipeline ML, un certo numero di modelli candidati viene addestrato utilizzando i dati. Alla fine della formazione, una parte essenziale della struttura di base del dominio è codificata nel modello. Ciò consente al modello ML di generalizzare per creare previsioni nel mondo reale. Ad esempio, è possibile inserire un gran numero di video di gatti e video di non gatti per addestrare un modello a riconoscere i video di gatti. Alla fine dell’addestramento una certa quantità di videoregistrazioni di gatti è codificata in predittori di successo.
ML è utilizzato in molti sistemi familiari; compresi i consigli sui film basati sui dati di visualizzazione e sull’analisi del paniere di mercato che suggeriscono nuovi prodotti in base al contenuto corrente dei carrelli della spesa per citarne alcuni. Il riconoscimento facciale, la previsione del cancro della pelle da immagini cliniche, l’identificazione della neuropatia retinica dalle scansioni retiniche, le previsioni di cancro dalle scansioni MRI sono tutti nel dominio della ML. Naturalmente, i sistemi di raccomandazione per i film sono molto diversi per portata e importanza da quelli che prevedono il cancro della pelle o l’inizio della neuropatia retinica e quindi la cecità.
L’idea chiave dopo questa formazione è quella di utilizzare una procedura di valutazione indipendente e distribuita in modo identico ( iid ) utilizzando dati tratti dalla distribuzione dell’addestramento che i predittori non hanno ancora incontrato. Questa valutazione viene utilizzata per scegliere il candidato per la distribuzione nel mondo reale. Molti candidati possono esibirsi in modo simile durante questa fase, anche se ci sono sottili differenze tra loro dovute alle ipotesi di partenza, al numero di corse, ai dati su cui si sono allenati ecc.
Idealmente la valutazione iid è un proxy per le prestazioni attese del modello. Questo aiuta a separare il grano dalla pula. Il problema dei modelli iid-ottimali. È ovvio che ci sarebbe stato un disallineamento strutturale tra i set di allenamento e il mondo reale. Il mondo reale è disordinato, caotico, le immagini sono sfocate, gli operatori non sono addestrati a catturare immagini incontaminate, ci sono guasti alle apparecchiature. Tutti i predittori ritenuti equivalenti nella fase di valutazione avrebbero dovuto mostrare difetti simili nel mondo reale. Un documento scritto da tre presidi e sostenuto da una trentina di altri ricercatori tutti di google GOOG + 1,2%, esamina questa teoria per spiegare molti errori di alto profilo dei modelli ML nel mondo reale. Ciò include il fiasco sanitario di Google altamente pubblicizzato in cui il modello non ha funzionato bene nei test sul campo in Thailandia volti a diagnosticare la neuropatia retinica dalle scansioni.
Il documento rileva che tutti i predittori che si sono comportati in modo simile durante la fase di valutazione non hanno funzionato allo stesso modo nel mondo reale. Uh oh, questo significa che non è stato possibile distinguere i dud ei buoni interpreti alla fine della pipeline . Inoltre, alcuni candidati hanno ottenuto risultati migliori quando le immagini erano sfocate, altri quando i dati avevano prospettive insolite, rivelando una differenza nella capacità predittiva in diverse presentazioni dello stesso dominio. Questo documento è un martello da presa sul processo di scelta di un predittore e sulle attuali pratiche di implementazione di una pipeline ML.
Il documento identifica la causa principale di questo comportamento come una sottospecificazione nelle pipeline ML. La sottospecificazione è un fenomeno ben compreso e ben documentato in ML, sorge a causa della presenza di più incognite rispetto alle equazioni lineari indipendenti esprimibili in un training set. La prima affermazione nel documento è che la sottospecificazione nelle pipeline ML è un ostacolo chiave per l’addestramento affidabile dei modelli che si comportano come previsto durante la distribuzione. La seconda affermazione è che la sottospecificazione è onnipresente nelle moderne applicazioni di ML e ha notevoli implicazioni pratiche. Non esiste una cura facile per la sottospecificazione. Tutti i predittori ML distribuiti utilizzando la pipeline corrente sono in una certa misura contaminati .
La soluzione è essere consapevoli dei pericoli di una sottospecificazione e scegliere più predittori, quindi sottoporli a stress test utilizzando più dati del mondo reale e scegliere il miglior performer; in altre parole, espandere il regime di test con più dati del mondo reale. Tutto ciò indica la necessità di una migliore qualità dei dati da utilizzare sia nella formazione che nel set di valutazione, il che ci porta a un utilizzo crescente di blockchain e contratti intelligenti per implementare soluzioni in molte aree. Questi cambiamenti consentono di rendere disponibili prima i dati del mondo reale strutturati più puliti. L’accesso a dati di formazione di qualità superiore e diversificati può ridurre la sottospecificazione e quindi creare un percorso verso modelli ML migliori, più velocemente.
Un’altra soluzione è rilasciare più candidati idonei dopo il gating effettuato tramite la valutazione iid. Ciò consente a molti modelli paralleli di essere sottoposti a stress test utilizzando la saggezza della folla. Non c’è più un unico vincitore, ci sono più vincitori; sembra che i predittori di ML assomiglino più agli umani che avrebbero dovuto sostituire.