Sommario
Qual è la differenza tra ML supervisionato e non supervisionato?
Come viene condotto il riciclaggio controllato?
Tipologie di ML vigilato
In che modo le grandi aziende gestiscono il riciclaggio controllato?
In che modo le startup sviluppano il machine learning supervisionato?
C’è qualcosa che il ML supervisionato non può fare? 
 
Il processo di addestramento per gli algoritmi di intelligenza artificiale (AI) è progettato per essere ampiamente automatizzato in modo innato. Ci sono spesso migliaia, milioni o addirittura miliardi di punti dati e gli algoritmi devono elaborarli tutti per cercare modelli. In alcuni casi, tuttavia, gli scienziati dell’IA stanno scoprendo che gli algoritmi possono essere resi più accurati ed efficienti se gli esseri umani vengono consultati, almeno occasionalmente, durante l’addestramento. 

Il risultato crea un’intelligenza ibrida che unisce il potere instancabile e instancabile dell’apprendimento automatico (ML) con le capacità perspicaci e sensibili al contesto dell’intelligenza umana. L’algoritmo del computer può scorrere infiniti file di dati di allenamento e gli esseri umani correggono il corso o guidano l’elaborazione. 

 
La supervisione del ML può avvenire in momenti diversi:

Prima: in un certo senso, l’essere umano aiuta a creare il set di dati di addestramento, a volte aggiungendo suggerimenti aggiuntivi all’incorporamento del problema e talvolta segnalando casi insoliti. 
Durante: L’algoritmo può fermarsi, regolarmente o solo in caso di anomalie, e chiedere se alcuni casi vengono correttamente compresi e appresi dall’algoritmo. 
Dopo: l’essere umano può guidare il modo in cui il modello viene applicato alle attività dopo il fatto. A volte ci sono diverse versioni del modello e l’essere umano può scegliere quale modello si comporterà meglio. 
In larga misura, il machine learning supervisionato è per domini in cui l’apprendimento automatico automatizzato non funziona abbastanza bene. Gli scienziati aggiungono la supervisione per portare le prestazioni a un livello accettabile. 

 
È anche una parte essenziale della risoluzione di problemi in cui non sono disponibili dati di allenamento prontamente disponibili che contengano tutti i dettagli che devono essere appresi. Molti problemi di ML supervisionati iniziano con la raccolta di un team di persone che etichetteranno o assegnano punteggi agli elementi di dati con la risposta desiderata. Ad esempio, alcuni scienziati hanno costruito una raccolta di immagini di volti umani e poi hanno chiesto ad altri umani di classificare ogni volto con una parola come “felice” o “triste”. Queste etichette di formazione hanno consentito a un algoritmo ML di iniziare a comprendere le emozioni trasmesse dalle espressioni facciali umane. 

Qual è la differenza tra ML supervisionato e non supervisionato?
Nella maggior parte dei casi, gli stessi algoritmi di machine learning possono funzionare sia con set di dati supervisionati che non supervisionati. La differenza principale è che gli algoritmi di apprendimento non supervisionato iniziano con dati grezzi, mentre gli algoritmi di apprendimento supervisionato hanno colonne o campi aggiuntivi creati dall’uomo. Questi sono spesso chiamati etichette sebbene possano avere anche valori numerici. In entrambi i casi vengono utilizzati gli stessi algoritmi. 

La supervisione viene spesso utilizzata per aggiungere campi che non sono evidenti nel set di dati . Ad esempio, alcuni esperimenti chiedono agli esseri umani di guardare le immagini del paesaggio e classificare se una scena è urbana, suburbana o rurale. L’algoritmo ML viene quindi utilizzato per cercare di abbinare la classificazione degli esseri umani. 

In alcuni casi, la supervisione viene aggiunta durante o dopo l’inizio dell’algoritmo ML. Questo feedback può provenire da utenti finali o scienziati. 

 

Come viene condotto il riciclaggio controllato?
Le opinioni e le conoscenze umane possono essere incluse nel set di dati prima, durante o dopo l’inizio degli algoritmi. Può essere eseguita anche per tutti gli elementi di dati o solo per un sottoinsieme. In alcuni casi, la supervisione può provenire da una grande squadra di esseri umani e in altri possono essere solo esperti in materia. 

 

Un processo comune prevede l’assunzione di un gran numero di persone per etichettare un set di dati di grandi dimensioni. Organizzare questo gruppo è spesso più faticoso che eseguire gli algoritmi. Alcune aziende sono specializzate nel processo e mantengono reti di liberi professionisti o dipendenti in grado di codificare set di dati. Molti dei grandi modelli per la classificazione e il riconoscimento delle immagini si basano su queste etichette. 

Alcune aziende hanno trovato meccanismi indiretti per catturare le etichette. Alcuni siti Web, ad esempio, vogliono sapere se i loro utenti sono umani o robot automatizzati. Un modo per verificarlo è creare una raccolta di immagini e chiedere all’utente di cercare elementi particolari, come un pedone o un segnale di stop. Gli algoritmi possono mostrare la stessa immagine a più utenti e quindi cercare la coerenza. Quando un utente è d’accordo con gli utenti precedenti, si presume che quell’utente sia un essere umano. Gli stessi dati vengono quindi salvati e utilizzati per addestrare algoritmi ML alla ricerca di pedoni o segnali di stop, un lavoro comune per i veicoli autonomi. 

Alcuni algoritmi utilizzano esperti in materia e chiedono loro di rivedere i dati periferici. Invece di classificare tutte le immagini, lavora con i valori più estremi ed estrapola regole da essi. Questo può essere più efficiente in termini di tempo, ma potrebbe essere meno accurato. È più popolare quando il tempo degli esperti umani è costoso. 

Tipologie di ML vigilato
Il mondo del ML supervisionato è suddiviso in diversi approcci. Molti hanno molto in comune con il machine learning senza supervisione perché usano gli stessi algoritmi. Alcune distinzioni, tuttavia, si concentrano sul modo in cui l’intelligenza umana viene ripiegata nel set di dati e assorbita dagli algoritmi. 

I diversi tipi di algoritmi più comunemente citati sono:

Classificazione: questi algoritmi prendono un set di dati e assegnano ogni elemento a un insieme fisso di classi. Ad esempio, Microsoft ha addestrato un modello di visione artificiale per esaminare una fotografia e fare un’ipotesi plausibile sulle emozioni dei volti. L’algoritmo sceglie uno dei vari termini, come “felice” o “triste”. Spesso, modelli come questo iniziano con una serie di classificazioni generate dall’uomo per i dati di addestramento. Un team esaminerà le foto e assegnerà un’etichetta come “felice” o “triste” a ciascuna faccia. L’algoritmo ML verrà quindi addestrato per approssimare queste risposte. 
Analisi di regressione: l’algoritmo adatta una linea o un’altra funzione matematica al set di dati in modo da poter effettuare previsioni numeriche. Gli input per la funzione possono essere una combinazione di dati grezzi ed etichette o stime umane. Ad esempio, l’algoritmo di classificazione dei volti di Microsoft può anche generare una stima dell’età numerica dell’essere umano. I dati di addestramento possono basarsi sulle date di nascita effettive anziché su alcune stime umane. 
Support vector machine: questo è un algoritmo di classificazione che utilizza un po’ di regressione per trovare le linee o i piani migliori per separare due o più classi. L’algoritmo si basa sulle etichette per separare le diverse classi e quindi applica un calcolo di regressione per disegnare la linea o il piano. 
Analisi dei sottoinsiemi: alcuni set di dati sono troppo grandi per essere etichettati dagli esseri umani. Una soluzione è scegliere un sottoinsieme casuale o strutturato e cercare l’input umano solo su questi valori. 
Leggi anche: 3 grandi problemi con i set di dati nell’intelligenza artificiale e nell’apprendimento automatico

In che modo le grandi aziende gestiscono il riciclaggio controllato?
Tutte le principali aziende offrono algoritmi ML di base che possono funzionare con dati etichettati o non etichettati. Stanno inoltre iniziando a offrire strumenti particolari che semplificano e addirittura automatizzano la supervisione. 
SageMaker di Amazon offre un ambiente di sviluppo integrato (IDE) completo per lavorare con i loro algoritmi ML. Alcuni potrebbero voler sperimentare modelli predefiniti e regolarli in base alle prestazioni. AWS offre anche Mechanical Turk che è integrato con l’ambiente, in modo che gli esseri umani possano esaminare i dati e aggiungere annotazioni che guideranno il ML. Gli esseri umani sono pagati dall’attività a un prezzo che hai impostato e questo influisce su quanti si iscrivono per lavorare. Questo può essere un modo conveniente per creare buone annotazioni per un set di dati di addestramento. 

Watson Studio di IBM è progettato sia per il machine learning non supervisionato che supervisionato. Il loro Cloud Pak for Data può aiutare a organizzare ed etichettare i set di dati raccolti da un’ampia varietà di data warehouse, laghi e altre fonti. Può aiutare i team a creare incorporamenti strutturati guidati dalle risorse umane e quindi inserire questi valori nella raccolta di algoritmi ML supportati dallo Studio. 

La raccolta di strumenti di intelligenza artificiale di Google include VertexAI , che è un prodotto più generale, e alcuni sistemi automatizzati ottimizzati per particolari tipi di set di dati come AutoML Video e AutoML Tabular . L’etichettatura dei dati pre-analitica è facile da eseguire con i vari strumenti di raccolta dei dati. Dopo la creazione del modello, Google offre anche uno strumento chiamato Vertex AI Model Monitoring che controlla le prestazioni del modello nel tempo e genera avvisi automatici se il modello sembra andare alla deriva. 

Microsoft dispone di un’ampia raccolta di strumenti di intelligenza artificiale, tra cui Azure Machine Learning Studio , un’interfaccia utente basata su browser che organizza la raccolta e l’analisi dei dati. I dati possono essere aumentati con etichette e altre classificazioni usando vari strumenti di Azure per l’organizzazione di data lake e warehouse. Lo studio offre un’interfaccia drag-and-drop per scegliere gli algoritmi giusti attraverso esperimenti con la classificazione e l’analisi dei dati. 


L’infrastruttura dati di Oracle è costruita attorno a grandi database che fungono da base per il data warehousing. I database sono anche ben integrati con algoritmi ML per ottimizzare la creazione e il test di modelli con questi set di dati. Oracle offre anche una serie di versioni mirate dei propri prodotti progettate per settori particolari, come la vendita al dettaglio o i servizi finanziari . I loro strumenti per la gestione dei dati possono organizzare la creazione di etichette per ogni punto dati e quindi applicare i giusti algoritmi per il ML supervisionato o semisupervisionato. 

In che modo le startup sviluppano il machine learning supervisionato?
Le startup stanno affrontando un’ampia gamma di problemi che sono importanti per creare modelli ben addestrati. Alcuni stanno lavorando al problema più generale di lavorare con set di dati generici, mentre altri vogliono concentrarsi su particolari nicchie o settori. 

CrowdFlower , iniziato come Dolores Labs, vende sia modelli pre-addestrati con dati pre-etichettati che organizza anche team per aggiungere etichette ai dati per aiutare a supervisionare il ML. I loro strumenti di annotazione dei dati possono aiutare i team interni o essere condivisi con un’ampia raccolta di lavoratori temporanei che CrowdFlower assume regolarmente. Eseguono anche programmi per valutare il successo dei modelli prima, durante e dopo la distribuzione. 

Swivl ha creato un’interfaccia di base per l’etichettatura dei dati in modo che i team possano iniziare rapidamente a guidare la scienza dei dati e gli algoritmi ML. L’azienda si è concentrata su questa interazione per renderla il più semplice ed efficiente possibile. 
L’intelligenza artificiale e le routine di gestione dei dati nel cloud di DataRobot sono progettate per facilitare ai team la creazione di pipeline che raccolgono e valutano i dati con routine low-code e no-code per l’elaborazione. Definiscono alcuni dei loro strumenti “intelligenza aumentata” perché possono fare affidamento sia sugli algoritmi ML che sulla codifica umana sia nell’addestramento che nell’implementazione. Dicono che vogliono “andare oltre il semplice prendere decisioni più intelligenti o decisioni più rapide, per prendere la decisione giusta”.

Zest AI si sta concentrando sul processo di approvazione del credito, in modo che gli istituti di credito possano accelerare e semplificare il flusso di lavoro per la concessione di prestiti. I loro strumenti aiutano le banche a costruire i propri modelli personalizzati che fondono la loro esperienza umana con la capacità di raccogliere informazioni sul rischio di credito. Distribuiscono anche “strumenti di de-biasing” che possono ridurre o eliminare alcune conseguenze indesiderate della costruzione del modello. 

Luminance aiuta i team legali con attività come la scoperta e la redazione di contratti. I suoi strumenti ML creano modelli personalizzati osservando il lavoro degli avvocati e imparando dalle loro decisioni. Questa supervisione casuale aiuta i modelli ad adattarsi più velocemente, in modo che il team possa prendere decisioni migliori. 

C’è qualcosa che il ML supervisionato non può fare? 
In molti sensi, il machine learning supervisionato produce la migliore combinazione di intelligenza umana e macchina quando crea un modello che apprende come un essere umano potrebbe classificare o analizzare i dati. 


Gli esseri umani, tuttavia, non sono sempre accurati e spesso non comprendono i dati abbastanza bene per lavorare con precisione. Possono annoiarsi dopo aver lavorato con molti elementi di dati. In molti casi, commettono errori o classificano i dati in modo incoerente perché non conoscono la risposta da soli. 

In effetti, nei casi in cui il problema non è ben compreso dagli esseri umani, l’uso di algoritmi supervisionati può raccogliere troppe informazioni dall’essere umano incoerente e incerto. Se all’opinione umana viene data troppa precedenza, l’algoritmo può essere sviato. 

Un problema comune con gli algoritmi supervisionati è l’enorme dimensione dei set di dati. Gran parte del ML dipende dalle raccolte di big data che vengono raccolte automaticamente. Pagare gli esseri umani per classificare o etichettare ogni elemento di dati è spesso troppo costoso. Alcuni scienziati scelgono sottoinsiemi casuali o strutturati dei dati e cercano opinioni umane solo su di essi. Questo può funzionare in alcuni casi, ma solo quando il segnale è abbastanza forte. L’algoritmo non può fare affidamento sulla capacità dell’algoritmo ML di trovare sfumature e distinzioni in set di dati molto grandi. 

Peter Wayner  da venturebeat.com

Di ihal