Robuuste regressie
Robuuste regressie(-analyse) is een statistische procedure die er op gericht is een regressie-analyse uit te kunnen voeren als aan de aannames van regressie via de kleinste-kwadratenmethode niet voldaan is. Een lineaire-regressie-analyse wordt meestal uitgevoerd met de kleinste-kwadratenmethode. Deze methode neemt aan dat de residuen onderling onafhankelijk zijn en uit een normale verdeling komen met constante variantie. Wanneer dit niet het geval is, met name wanneer de homoscedasticiteitsaanname geschonden is, kan deze methode tot vertekende schatters leiden.
Robuuste methode
[bewerken | brontekst bewerken]Een bekende schatting van een verwachtingswaarde van een steekproef uit een normale verdeling is het steekproefgemiddelde, dat tamelijk gevoelig is voor uitbijters. Ter vermijding van dit probleem neemt men als robuuste schatting de mediaan van de steekproef. Een of meer uitbijters tellen eenvoudig niet mee in de mediaan.[1]
Voor het lineaire regressiemodel
worden schattingen en van respectievelijk en met de kleinste-kwadratenmethode bepaald als oplossingen van het minimaliseringsprobleem:
- minimaal.
In plaats van het minimaliseren van de som, minimaliseren de genoemde auteurs de mediaan. De robuuste schattingen en zijn de oplossingen van het minimaliseringsprobleem:
- minimaal.
Weliswaar is het niet mogelijk om voor dit probleem een analytische oplossing te formuleren, maar voor moderne computers is dat niet zo'n probleem, omdat men een dergelijk vraagstuk ook met een iteratief algoritme te lijf kan gaan.
Voor een eenvoudige rechte ziet het algoritme er als volgt uit
- neem twee punten uit de set
- construeer een rechte door de twee punten
- bereken het kwadraat van de residuen
- bepaal de mediaan van deze kwadraten
- herhaal de procedure voor alle (of althans voor een voldoend aantal) puntencombinaties
- de lijn met de kleinste mediaan is de robuuste oplossing
Deze lijn is niet de exacte oplossing van het vraagstuk, omdat alleen lijnen door twee punten in beschouwing genomen zijn, maar de lijn voldoet om de uitbijters te identificeren. De wortel uit de minimale mediane variatie is een goede en robuuste maat voor de stadaarddeviatie van de 'goede' punten rond de lijn als deze vermenigvuldigd wordt met de factor 1,485.
Hierna worden alle residuen door deze maat voor de spreiding gedeeld en onderworpen aan een t-toets. Op deze manier kunnen de uitbijters verwijderd worden. Vervolgens wordt op de overblijvende 'schone' set een 'gewone' regressie-analyse uitgevoerd.
In zijn geheel staat deze procedure bekend als Weighted Least Squares (WLS).
- ↑ In hun boek Robust regression and outlier detection hebben twee Vlaamse onderzoekers Peter J. Rousseeuw en Annick M. Leroy dit idee ook toegepast bij regressie-analyse.
Literatuur
- Rousseuw, P.J. & A.M. Leroy Robust Regression and Outlier Detection 1987 Wiley series in probability and mathematical statistics ISBN 0-471-85233-3