Una guida alla modellazione multilivello nell’apprendimento automatico
 
La modellazione multilivello è una tecnica per gestire i dati che sono stati raggruppati o raggruppati. I dati con misure ripetute possono anche essere analizzati utilizzando la modellazione multilivello. Ad esempio, se si misura settimanalmente la pressione arteriosa di un gruppo di pazienti, si può pensare alle misurazioni successive come raggruppate all’interno dei singoli soggetti. Può gestire dati con periodi di misurazione diversi da un soggetto all’altro. In questi casi può essere applicato un modello multilivello nell’apprendimento automatico che modella i parametri che variano a più di un livello. In questo articolo, esamineremo cos’è la modellazione multilivello e come funziona. Di seguito sono riportati i punti importanti da discutere in questo articolo.

Sommario
Che cos’è la modellazione multilivello?
Perché utilizzare un modello multilivello?
Diversi modelli multilivello
L’ipotesi fatta dai modelli
Componenti statistici
Vantaggi e svantaggi rispetto al DL
Iniziamo la discussione capendo cos’è la modellazione multilivello.

Che cos’è la modellazione multilivello?
I modelli multilivello sono modelli statistici con molti livelli di variazione. Sono anche noti come modelli lineari gerarchici, modelli lineari a effetti misti, modelli misti, modelli di dati nidificati, coefficienti casuali, modelli a effetti casuali, modelli a parametri casuali o disegni a trama divisa.

Molti tipi di dati, in particolare i dati osservativi raccolti nelle scienze umane e biologiche, hanno una struttura gerarchica o cluster. I bambini con gli stessi genitori, ad esempio, hanno più caratteristiche fisiche e mentali in comune rispetto alle persone scelte a caso dalla popolazione più ampia. 

Gli individui possono essere ulteriormente suddivisi in aree geografiche o entità come scuole o datori di lavoro. Quando le risposte di un individuo nel tempo sono collegate, le strutture di dati multilivello si sviluppano nelle indagini longitudinali.

Fonte
La presenza di tali gerarchie di dati è riconosciuta da modelli multilivello, che consentono componenti residuali ad ogni livello della gerarchia. Un modello a due livelli, ad esempio, che consente il raggruppamento dei risultati dei bambini all’interno delle scuole includerebbe i residui sia a livello di bambino che di scuola. 

Di conseguenza, la varianza residua è divisa in due componenti: una componente interscolastica (la varianza dei residui a livello di scuola) e una componente intrascolastica (la varianza dei residui a livello di bambino). I residui scolastici, spesso noti come effetti scolastici, sono caratteristiche scolastiche non osservate che influenzano i risultati dei bambini. Queste variabili invisibili sono ciò che causa il collegamento tra i risultati per i bambini.

Questi modelli sono generalizzazioni di modelli lineari (soprattutto regressione lineare), ma possono anche essere usati per modellare dati non lineari. Questi modelli crebbero in popolarità man mano che erano disponibili potenza di elaborazione e software sufficienti. I modelli multilivello sono particolarmente efficaci per le metodologie di ricerca che richiedono che i dati dei partecipanti siano organizzati a più livelli (cioè dati annidati). 

Gli individui sono generalmente annidati all’interno di unità contestuali/aggregate come unità di analisi (a un livello inferiore). Mentre le misurazioni individuali sono spesso il livello più basso di dati nei modelli multilivello (a un livello più alto), possono essere esplorate anche misurazioni ripetute delle persone.

Perché utilizzare un modello multilivello?
Esistono diversi motivi per utilizzare la modellazione multilivello, alcuni dei quali sono discussi di seguito.

Per ottenere inferenze corrette 
Le unità di analisi sono trattate come osservazioni indipendenti nei tradizionali approcci di regressione multipla. Gli errori standard dei coefficienti di regressione saranno sottostimati a causa del mancato riconoscimento delle strutture gerarchiche, portando a un’esagerazione della significatività statistica. Ignorare il raggruppamento avrà il maggiore impatto sugli errori standard per i coefficienti delle variabili predittive di livello superiore.

Interesse significativo negli effetti di gruppo 
Un importante argomento di studio in molti contesti è il livello di raggruppamento nei risultati individuali, così come l’identificazione di gruppi “periferici”. Nelle valutazioni del rendimento scolastico, ad esempio, l’obiettivo è ottenere effetti scolastici “a valore aggiunto” sul rendimento degli alunni. In un modello multilivello che tiene conto dei risultati precedenti, tali effetti equivalgono ai residui a livello di scuola.

Stima simultanea degli effetti di gruppo
Un modello di regressione tradizionale (minimi quadrati ordinari) può essere integrato con variabili fittizie per i gruppi per tenere conto degli effetti di gruppo. Questo tipo di modello è noto come analisi della varianza o modello a effetti fissi. In molte circostanze, i predittori saranno definiti a livello di gruppo, come il tipo di scuola (misto o dello stesso sesso).

Gli effetti dei predittori a livello di gruppo sono confusi con gli effetti dei dummy di gruppo in un modello a effetti fissi, ovvero non è possibile separare gli effetti a causa delle caratteristiche del gruppo osservate e non osservate. Gli impatti di entrambi i tipi di variabili possono essere stimati in un modello multilivello (effetti casuali).

Inferenza a una popolazione di gruppi
I gruppi nel campione sono considerati come un campione casuale da una popolazione di gruppi in un modello multilivello. Le inferenze oltre i gruppi nel campione non possono essere fatte utilizzando un modello a effetti fissi.

Diversi modelli multilivello
Prima di intraprendere un’analisi del modello multilivello, dobbiamo decidere su una serie di fattori, incluso se includere o meno i predittori nello studio. In secondo luogo, i valori dei parametri (cioè gli elementi da stimare) saranno fissi o casuali? I parametri fissi hanno lo stesso valore in tutti i gruppi, mentre i parametri casuali hanno un valore distinto per ciascun gruppo. Inoltre, il ricercatore deve scegliere tra l’utilizzo di una stima di massima verosimiglianza e una stima di massima verosimiglianza ristretta. Sulla base di ciò, i modelli sono classificati come segue.

Modello di intercettazioni casuali
Un modello di intercettazioni casuali è quello in cui le intercettazioni possono cambiare e, di conseguenza, l’intercetta che varia tra i gruppi prevede i punteggi sulla variabile dipendente per ogni osservazione univoca. Si presume che le pendenze in questo modello siano fisse (le stesse in contesti diversi). Inoltre, questo modello fornisce informazioni sulle correlazioni intraclasse, utili per decidere se i modelli multilivello sono necessari in primo luogo.

Modello di pendenze casuali e intercettazioni
Un modello di pendenze casuali è quello in cui le pendenze possono cambiare, risultando in pendenze che differiscono tra i gruppi. Si presume che le intercettazioni in questo modello siano fisse (le stesse in contesti diversi). Il tipo di modello più realistico è quello che contiene sia intercettazioni casuali che pendenze casuali, tuttavia è anche il più complesso. Sia le intercettazioni che le pendenze possono cambiare tra i gruppi in questo paradigma, il che implica che sono diversi in situazioni diverse.

 L’ipotesi fatta dai modelli

Le assunzioni dei modelli multilivello sono le stesse di quelle degli altri principali modelli lineari generali (ad es. ANOVA, regressione), ma alcune di esse sono modificate per tenere conto del carattere gerarchico del progetto (ad es. dati nidificati).

Indipendenza di osservazione
L’indipendenza è un presupposto generale del modello lineare che afferma che i casi sono campioni casuali della popolazione e che i punteggi delle variabili dipendenti sono indipendenti l’uno dall’altro. 

Uno degli scopi primari dei modelli multilivello è quello di trattare i casi in cui viene violato il presupposto di indipendenza; tuttavia, i modelli multilivello presuppongono che 1) i residui di livello 1 e livello 2 non siano correlati e 2) gli errori (misurati dai residui) al livello più alto non siano correlati.

Linearità
L’assunzione di linearità afferma che la relazione tra le variabili è rettilinea (retta, in contrapposizione a non lineare oa forma di U). Il modello, d’altra parte, può essere utilizzato per modellare relazioni non lineari. Il modello non lineare a effetti misti è una struttura del modello ampiamente utilizzata quando la parte media dell’equazione di livello 1 viene sostituita con una funzione parametrica non lineare.

omoschedasticità
L’assunzione di omoschedasticità, nota anche come omogeneità della varianza, presuppone che le varianze della popolazione siano uguali. Possono essere fornite diverse matrici di varianza-correlazione per soddisfare questo problema e anche l’eterogeneità della varianza può essere modellata.

Normalità
L’assunzione di normalità afferma che le componenti di errore sono regolarmente distribuite a tutti i livelli del modello. La maggior parte dei software statistici, d’altra parte, consente di scegliere più distribuzioni per i termini di varianza, come le distribuzioni di Poisson, binomiali e logistiche. Tutti i tipi di modelli lineari generalizzati possono beneficiare della tecnica di modellazione multilivello.

Componenti statistici
I test statistici utilizzati nei modelli multilivello differiscono a seconda che si stiano studiando effetti fissi o componenti della varianza. Quando si studiano gli effetti fissi, i test vengono confrontati con l’errore standard dell’effetto fisso, risultando in un test Z. Puoi anche eseguire un t-test. 

Quando si esegue un test t, tenere a mente i gradi di libertà, che variano a seconda del livello del predittore (ad esempio, predittore di livello 1 o predittore di livello 2). I gradi di libertà per un predittore di livello 1 sono determinati dal numero di predittori di livello 1, gruppi e singole osservazioni. I gradi di libertà per un predittore di livello 2 sono determinati dal numero di predittori di livello 2 e dal numero di gruppi.

Vantaggi e svantaggi rispetto al Deep Learning
Modellazione multilivello
La struttura delle interazioni deve essere definita.
I metodi statistici possono spesso produrre risultati più facili da interpretare (valutare gli intervalli di confidenza, verificare le ipotesi)
Apprendimento profondo
Per allenarsi è necessaria una grande quantità di dati (e anche tempo per l’allenamento)
La maggior parte delle volte, i risultati sono difficili da interpretare (forniti come una scatola nera)
Una volta ben addestrato, non sono necessarie conoscenze specialistiche e di solito supera la maggior parte degli altri approcci ampi (non specifici dell’applicazione)
Conclusione
Attraverso questo articolo, abbiamo visto vari aspetti della modellazione multilivello. Fin dall’inizio, abbiamo discusso su cosa sia la modellazione multilivello e dall’immagine raffigurata abbiamo cercato di capire che non è altro che impilare più stimatori. Successivamente abbiamo discusso diversi motivi che portano all’uso di questo approccio e, infine, abbiamo visto tipi di modelli e vantaggi e svantaggi di questo sistema.

Di ihal