Latenteklassemodel

Een latenteklassemodel is een statistisch model dat als doel heeft om aan de hand van een aantal geobserveerde variabelen een achterliggende, niet geobserveerde variabele te identificeren. Deze latente variabele geeft een verklaring voor de onderlinge samenhang van de manifeste variabelen en kan helpen de structuur van de geobserveerde data beter te begrijpen. De latente variabele die het resultaat is van dit model is een discrete variabele met minimaal twee categorieën, of klassen.

Een latente klasse wordt beschreven met een reeks voorwaardelijke kansen die voor iedere mogelijke score op de geobserveerde variabelen wordt berekend. Deze kans geeft aan hoe waarschijnlijk het is dat een case die tot een van de verschillende klassen behoort een bepaalde score heeft behaald op de geobserveerde variabelen.

Schatting

Latenteklassemodellen worden geschat door middel van maximum likelihood. Deze methode gaat aan de hand van een algoritme op zoek naar de parameters die de geobserveerde data het meest waarschijnlijk maken. Ervan uitgaande dat er een steekproef getrokken is uit een grotere populatie construeert maximum-likelihood-schatting de latente variabele dusdanig, dat de kans om deze data te observeren het hoogst is wanneer de latente variabele daadwerkelijk in de populatie aanwezig zou zijn. Dit impliceert dat de latente variabele causaal voorafgaat aan de geobserveerde variabelen.

Model

Er zijn twee typen parametriseringen van latenteklassemodellen, een loglinear model, en een probabilistisch model.

Probabilistisch

Laat $Z$ een matrix zijn met alle antwoordpatronen en $z$ één specifiek antwoordpatroon uit deze matrix, waarbij $v$ één variabele betreft uit het antwoordpatroon, en $r_{v}$ de respons op deze variabele, dan is $I$ een indicator die één is wanneer de respons $r_{v}$ gelijk is aan $z_{v}$ .
Laat $\gamma _{k}$ de waarschijnlijkheid zijn van lidmaatschap van klasse $k$ , en laat $\rho _{v,{r_{v}}|k}$ de voorwaardelijke waarschijnlijkheid zijn dat de respons $r_{v}$ op variabele $v$ gegeven wordt, gegeven lidmaatschap van klasse $k$ .

P(Z=z)=\sum _{k=1}^{K}\gamma _{k}\prod _{v=1}^{V}\prod _{r_{v=1}}^{R_{v}}\rho _{v,{r_{v}}|k}^{I({z_{v}}={r_{v}})}

Dan is de kans op antwoordpatroon $z$ een functie van de waarschijnlijkheid van lidmaatschap van klasse $k$ en de voorwaardelijke waarschijnlijkheid van de respons $r_{v}$ op variabele $v$ , gegeven lidmaatschap van klasse $k$ .

Voorbeeld

Een wiskundetoets met drie problemen wordt afgenomen onder een groep leerlingen. Het antwoord op de drie problemen A, B, en C is ofwel goed, ofwel fout. Met latenteklasseanalyse kan er mogelijk een onderscheid gemaakt worden tussen bepaalde leerlingen, en in sommige gevallen een meer inhoudelijke interpretatie gegeven worden van de data.

Iedere leerling heeft één antwoordpatroon uit acht mogelijke patronen (goed, goed, goed | goed, goed, fout | goed, fout, goed | goed, fout, fout | fout, goed, goed | fout, goed, fout | fout, fout, goed | fout, fout, fout). Op basis van deze informatie wordt de analyse uitgevoerd en blijkt één latente variabele met drie klassen deze data te kunnen samenvatten.

Taak	Klasse 1	Klasse 2	Klasse 3
Probleem A
Goed	0,8	0,1	0,1
Fout	0,2	0,9	0,9
Probleem B
Goed	0,9	0,7	0,1
Fout	0,1	0,3	0,9
Probleem C
Goed	0,9	0,8	0,2
Fout	0,1	0,2	0,8

De getallen in de cellen van de tabel geven de voorwaardelijke waarschijnlijkheid weer van de score op de geobserveerde variabele, gegeven dat een leerling in die klasse zit. Het is waarschijnlijk dat een leerling die onder klasse één valt alle problemen goed heeft opgelost, en een leerling die in klasse drie valt alle antwoorden fout heeft. Leerlingen in klasse twee hebben hoogstwaarschijnlijk probleem B en C goed, maar probleem A niet.

Een interpretatie van deze uitkomst zou kunnen zijn dat de drie klassen respectievelijk geïnterpreteerd kunnen worden als hoge, gemiddelde en lage intelligentie. De latente variabele verklaart nu waarom de leerlingen bepaalde scores halen, en staat toe dat er verdere uitspraken over de data gedaan kunnen worden.