Alcuni modelli di apprendimento automatico appartengono alle categorie di modelli “generativi” o “discriminatori”. Ma qual è la differenza tra queste due categorie di modelli? Cosa significa per un modello essere discriminatorio o generativo?
La risposta breve è che i modelli generativi sono quelli che includono la distribuzione del set di dati, restituendo una probabilità per un dato esempio. I modelli generativi vengono spesso utilizzati per prevedere cosa accade dopo in una sequenza. Nel frattempo, i modelli discriminativi vengono utilizzati per la classificazione o per la regressione e restituiscono una previsione basata sulla probabilità condizionata. Esploriamo più in dettaglio le differenze tra modelli generativi e discriminativi, in modo da poter capire veramente cosa separa i due tipi di modelli e quando ogni tipo dovrebbe essere utilizzato.
Modelli generativi e discriminativi
Esistono diversi modi per classificare un modello di apprendimento automatico. Un modello può essere classificato come appartenente a diverse categorie come: modelli generativi, modelli discriminanti, modelli parametrici, modelli non parametrici, modelli basati su alberi o modelli non basati su alberi.
Questo articolo si concentrerà sulle differenze tra modelli generativi e modelli discriminativi. Inizieremo definendo modelli sia generativi che discriminanti, quindi esploreremo alcuni esempi di ciascuno.
Modelli generativi
I modelli generativi sono quelli incentrati sulla distribuzione delle classi all’interno del set di dati. Gli algoritmi di machine learning in genere modellano la distribuzione dei punti dati. I modelli generativi si basano sulla ricerca di probabilità congiunte, creando punti in cui una data caratteristica di input e un output / etichetta desiderato esistono contemporaneamente.
I modelli generativi sono tipicamente impiegati per stimare probabilità e verosimiglianza, modellando punti dati e discriminando tra classi in base a queste probabilità. Poiché il modello apprende una distribuzione di probabilità per il set di dati, può fare riferimento a questa distribuzione di probabilità per generare nuove istanze di dati. I modelli generativi spesso si basano sul teorema di Bayes per trovare la probabilità congiunta, trovando p (x, y). In sostanza, i modelli generativi modellano il modo in cui i dati sono stati generati, rispondere alla seguente domanda:
“Qual è la probabilità che questa o un’altra classe abbia generato questo punto dati / istanza?”
Esempi di modelli di machine learning generativo includono Linear Discriminant Analysis (LDA), modelli di Hidden Markov e reti bayesiane come Naive Bayes.
Modelli discriminatori
Mentre i modelli generativi apprendono la distribuzione del set di dati, i modelli discriminativi apprendono il confine tra le classi all’interno di un set di dati. Con i modelli discriminativi, l’obiettivo è identificare il confine decisionale tra le classi per applicare etichette di classe affidabili alle istanze di dati. I modelli discriminatori separano le classi nel set di dati utilizzando la probabilità condizionale, senza fare ipotesi sui singoli punti dati.
I modelli discriminatori si prefiggono di rispondere alla seguente domanda:
“In quale lato del confine decisionale si trova questa istanza?”
Esempi di modelli discriminanti nell’apprendimento automatico includono macchine a vettori di supporto , regressione logistica, alberi decisionali e foreste casuali.
Differenze tra modelli generativi e discriminativi
Ecco una rapida carrellata delle principali differenze tra modelli generativi e discriminativi.
Modelli generativi:
I modelli generativi mirano a catturare la distribuzione effettiva delle classi nel set di dati.
I modelli generativi prevedono la distribuzione di probabilità congiunta – p (x, y) – utilizzando il teorema di Bayes .
I modelli generativi sono computazionalmente costosi rispetto ai modelli discriminanti.
I modelli generativi sono utili per le attività di machine learning senza supervisione.
I modelli generativi sono influenzati dalla presenza di valori anomali più dei modelli discriminatori.
Modelli discriminatori:
I modelli discriminatori modellano il confine decisionale per le classi del set di dati.
I modelli discriminatori apprendono la probabilità condizionata – p (y | x).
I modelli discriminatori sono computazionalmente economici rispetto ai modelli generativi.
I modelli discriminatori sono utili per le attività di machine learning supervisionate.
I modelli discriminatori hanno il vantaggio di essere più robusti ai valori anomali, a differenza dei modelli generativi.
I modelli discriminatori sono più resistenti ai valori anomali rispetto ai modelli generativi.
Esploreremo ora brevemente alcuni diversi esempi di modelli di machine learning generativi e discriminativi.
Esempi di modelli generativi
Analisi discriminante lineare (LDA)
I modelli LDA funzionano stimando la varianza e la media dei dati per ciascuna classe nel set di dati. Dopo che la media e le varianze per ogni classe sono state calcolate, si possono fare previsioni stimando la probabilità che un dato insieme di input appartenga a una data classe.
Modelli Markov nascosti
Le catene di Markov possono essere pensate come grafici con probabilità che indicano quanto è probabile che ci spostiamo da un punto della catena, uno “stato”, a un altro stato. Le catene di Markov vengono utilizzate per determinare la probabilità di passare dallo stato j allo stato i, che può essere indicato come p (i, j). Questa è solo la probabilità congiunta di cui sopra. Un modello di Markov nascosto è dove viene utilizzata una catena di Markov invisibile e non osservabile. Gli input di dati vengono forniti al modello e le probabilità per lo stato corrente e lo stato immediatamente precedente vengono utilizzate per calcolare il risultato più probabile.
Reti bayesiane
Le reti bayesiane sono un tipo di modello grafico probabilistico. Rappresentano le dipendenze condizionali tra le variabili, come rappresentato da un grafico aciclico diretto. In una rete bayesiana, ogni bordo del grafico rappresenta una dipendenza condizionale e ogni nodo corrisponde a una variabile univoca. L’indipendenza condizionale per le relazioni univoche nel grafico può essere utilizzata per determinare la distribuzione congiunta delle variabili e calcolare la probabilità congiunta. In altre parole, una rete bayesiana acquisisce un sottoinsieme delle relazioni indipendenti in una specifica distribuzione di probabilità congiunta.
Una volta che una rete bayesiana è stata creata e adeguatamente definita, con variabili casuali, relazioni condizionali e distribuzioni di probabilità note, può essere utilizzata per stimare la probabilità di eventi o risultati.
Uno dei tipi più comunemente usati di reti bayesiane è un modello Naive Bayes. Un modello Naive Bayes gestisce la sfida di calcolare la probabilità per set di dati con molti parametri / variabili trattando tutte le caratteristiche come indipendenti l’una dall’altra.
Esempi di modelli discriminatori
Supporta macchine vettoriali
Le macchine a vettori di supporto operano tracciando un confine decisionale tra i punti dati, trovando il confine decisionale che separa meglio le diverse classi nel set di dati. L’algoritmo SVM disegna linee o iperpiani che separano i punti, rispettivamente per spazi bidimensionali e spazi 3D. SVM si sforza di trovare la linea / iperpiano che separa al meglio le classi cercando di massimizzare il margine, o la distanza tra la linea / iperpiano ai punti più vicini. I modelli SVM possono essere utilizzati anche su set di dati che non sono separabili linearmente utilizzando il “trucco del kernel” per identificare i confini decisionali non lineari.
Regressione logistica
La regressione logistica è un algoritmo che utilizza una funzione logit (log-odds) per determinare la probabilità che un input si trovi in uno dei due stati. Una funzione sigmoide viene utilizzata per “schiacciare” la probabilità verso 0 o 1, vero o falso. Si presume che le probabilità maggiori di 0,50 siano di classe 1, mentre le probabilità 0,49 o inferiori siano pari a 0. Per questo motivo, la regressione logistica viene tipicamente utilizzata nei problemi di classificazione binaria. Tuttavia, la regressione logistica può essere applicata a problemi multi-classe utilizzando un approccio uno contro tutti, creando un modello di classificazione binaria per ogni classe e determinando la probabilità che un esempio sia una classe obiettivo o un’altra classe nel set di dati.
Albero decisionale
Un modello di albero decisionale funziona suddividendo un set di dati in porzioni sempre più piccole e, una volta che i sottoinsiemi non possono essere ulteriormente suddivisi, il risultato è un albero con nodi e foglie. I nodi in un albero decisionale sono i punti in cui le decisioni sui punti dati vengono prese utilizzando criteri di filtro diversi. Le foglie in un albero decisionale sono i punti dati che sono stati classificati. Gli algoritmi dell’albero decisionale possono gestire dati sia numerici che categoriali e le suddivisioni dell’albero si basano su variabili / caratteristiche specifiche.
Foreste casuali
Un modello di foresta casuale è fondamentalmente solo una raccolta di alberi decisionali in cui viene calcolata la media delle previsioni dei singoli alberi per giungere a una decisione finale. L’algoritmo della foresta casuale seleziona le osservazioni e le caratteristiche in modo casuale, costruendo i singoli alberi in base a queste selezioni.