Problem porównań wielokrotnych

Problem porównań wielokrotnych – w statystyce zjawisko występujące przy dokonywaniu estymacji lub weryfikacji hipotez statystycznych polegające na zwiększonym ponad nominalny poziom istotności ryzyku omyłkowego odrzucenia prawdziwej hipotezy zerowej (popełnienia błędu I rodzaju) przy wykonywaniu wielu porównań tej samej grupy (rodziny) hipotez jednocześnie. Przynajmniej jeden z testów może przypadkiem, dzięki losowej zmienności prób, przekroczyć próg istotności z prawdopodobieństwem równym^[1]^[2]:

{\overline {\alpha }}=1-\left(1-\alpha \right)^{k}

Przy konwencjonalnym poziomie $\alpha =0{,}05$ grupowe ryzyko popełnienia przynajmniej jednego błędu I rodzaju przekracza 50% już przy liczbie porównań wielokrotnych $k\approx 13.$

Przykładowo, choć w rzeczywistości w populacji badane zjawisko nie występuje w żadnym stopniu, badacz, który wykona kilkaset porównań bez odpowiedniej poprawki w podgrupach według płci, wieku, wykształcenia, klasy socjoekonomicznej, miejsca zamieszkania – np. w modelu 2 płcie × 5 grup wiekowych × 5 grup wykształcenia × 3 klasy socjoekonomiczne × 3 typy miejsca zamieszkania, co daje 450 porównań – znajdzie praktycznie na pewno bardzo wiele przypadkowo istotnych statystycznie różnic. Nawet jeśli badane zjawisko rzeczywiście istnieje, zaburzona kontrola błędu I rodzaju powoduje przeszacowywanie jego wielkości efektu.

Andrew Gelman zwraca uwagę, że w wielu przypadkach nadmierna troska o błędy I rodzaju może być szkodliwa: badacz, który poprawnie przestrzega zasad wnioskowania częstościowego, powinien rozstrzygać o wartości odkrycia na podstawie mocy testu i wielkości efektu, a nie samej istotności statystycznej^[3]. Z drugiej strony, jeśli w danym obszarze badawczym błąd jest kosztowny (np. w medycynie), istnieje wiele sposobów opisu problemu i odpowiednich metod zaradczych^[4].

Problem porównań wielokrotnych spotyka się również w badaniach eksploracyjnych, oraz w komputerowej eksploracji danych (data miningu), jednak w zastosowaniach eksploracyjnych może być traktowany inaczej i rozwiązywany np. przez zaplanowanie w dalszych krokach badań konfirmacyjnych, czy stosowanie sprawdzianu krzyżowego (kroswalidacji) oraz metod samowspornych (bootstrap). Problem w mniejszym stopniu dotyczy również metod strukturalnych i hierarchicznych technik bayesowskich^[3].

Definicje ryzyka grupowego

Definicja rodziny hipotez

Głównym kryterium określającym granice rodziny powiązanych hipotez i testów jest oparcie na wspólnym zbiorze danych. Luźnym, dodatkowym kryterium jest również przynależność do wyników interpretowanych przez badacza jako potwierdzenie wspólnej grupy hipotez badawczych. Problem porównań wielokrotnych może nie dotyczyć przypadku, gdy jeden zbiór danych jest wykorzystywany do dwóch zupełnie różnych celów^[5]^[6]. Zależnie od ścisłości i poziomu analizy, grupowe ryzyko błędu można sformułować na kilka różnych sposobów, takich jak PFER, FWER czy FDR.

PFER

PFER (ang. per family error rate) – oczekiwana proporcja błędów I rodzaju w rodzinie testów. Klasyczna poprawka Bonferroniego kontroluje ten wskaźnik^[6]. Choć jest on często określany jako zbyt zachowawczy, Frane argumentuje, że w praktyce powinien być częściej uwzględniany np. w przypadku badań medycznych, gdy błąd jest szczególnie kosztowny, ponieważ najmniej konserwatywne metody mogą go bardzo poważnie podwyższać^[4].

FWER

FWER (ang. family-wise error rate) – prawdopodobieństwo popełnienia co najmniej jednego błędu I rodzaju w rodzinie testów. Wskaźnik ten kontroluje np. poprawka Holma-Bonferroniego^[6].

FDR

FDR (ang. false discovery rate) – oczekiwana proporcja błędów I rodzaju wśród wyników istotnych statystycznie. Wskaźnik ten kontroluje np. procedura Benjaminiego-Hochberga. W tym przypadku FWER może czasami przekraczać nominalny poziom istotności np. 5%, gwarantując jednak wyższą moc statystyczną^[6].

Dopełnieniem FDR jest PPV (ang. positive predictive value – wartość predykcyjna dodatnia): ${\text{PPV}}=1-{\text{FDR}}.$ PPV jest miarą, która opisuje oczekiwaną proporcję trafnych potwierdzeń prawdziwych hipotez wśród wyników istotnych statystycznie. Według hiperbolicznego stwierdzenia Ioannidesa, ze względu na niską przeciętną moc statystyczną badań, i inne powszechne słabości metodologiczne, takie jak efekt szuflady, ogólne PPV w naukach jest niskie – „większość opublikowanych wyników naukowych jest fałszywa”^[7]^[8]. Przez analogię zdefiniowano także NPV (ang. negative predictive value – wartość predykcyjna ujemna), tj. miarę trafnych rozpoznań błędnych hipotez, oraz szereg innych podobnych wskaźników statystycznych^[9].

Metody przeciwdziałania

Zaproponowano szereg prostych narzędzi przeciwdziałających temu problemowi, polegających zwykle na zmniejszeniu nominalnego poziomu istotności każdego testu o określoną poprawkę na porównania wielokrotne, takich jak poprawka Bonferroniego, poprawka Holma-Bonferroniego, czy procedura Benjaminiego-Hochberga. Wadą niektórych z nich jest obniżenie mocy testu, tzn. zwiększenie ryzyka nieodrzucenia fałszywej hipotezy zerowej (popełnienia błędu II rodzaju) – jak w przypadku konserwatywnej, klasycznej poprawki Bonferroniego – dlatego wskazane jest też ograniczenie liczby wykonywanych porównań do niezbędnego minimum. Nowsze metody, takie jak poprawka Holma-Bonferroniego czy procedura Benjaminego-Hochberga, oraz techniki samowsporne (bootstrap) są mniej kosztowne pod względem mocy statystycznej^[2]. W szerszym kontekście procesu badawczego, fałszywe wyniki oraz błędy metodologiczne mogą być rozpoznawane i rozwiązywane przy pomocy replikacji i metaanaliz^[5].

Przypisy

↑ Rupert G.R.G. Miller Rupert G.R.G., Simultaneous statistical inference, Springer-Verlag, 1981, ISBN 0-387-90548-0 .
↑ ^a ^b Jo’awJ.’ Benjamini Jo’awJ.’, Simultaneous and selective inference: Current successes and future challenges, „Biometrical Journal”, 52 (6), 2010, s. 708–721, DOI: 10.1002/bimj.200900299, ISSN 1521-4036 [dostęp 2017-01-31] (ang.).
↑ ^a ^b AndrewA. Gelman AndrewA., JenniferJ. Hill JenniferJ., MasanaoM. Yajima MasanaoM., Why we (usually) don’t have to worry about multiple comparisons, „arXiv:0907.2478 [stat]”, 14 lipca 2009, arXiv:0907.2478 [dostęp 2017-01-31] .
↑ ^a ^b Andrew V.A.V. Frane Andrew V.A.V., Are Per-Family Type I Error Rates Relevant in Social and Behavioral Science?, „Journal of Modern Applied Statistical Methods”, 14 (1), 2015 [dostęp 2017-01-31] (ang.).
↑ ^a ^b Stanley S.S.S. Young Stanley S.S.S., Resampling-based multiple testing: examples and methods for P-value adjustment, Wiley, 1993, ISBN 978-0-471-55761-6, OCLC 26128320 .
↑ ^a ^b ^c ^d Juliet PopperJ.P. Shaffer Juliet PopperJ.P., Multiple Hypothesis Testing, „Annual Review of Psychology”, 46 (1;), 2003, s. 561–584, DOI: 10.1146/annurev.ps.46.020195.003021 [dostęp 2017-01-31] (ang.).
↑ JohnJ. Ioannidis JohnJ., Why Most Published Research Findings Are False, „PLOS Medicine”, 2 (8), 2005, e124, DOI: 10.1371/journal.pmed.0020124, ISSN 1549-1676, PMID: 16060722, PMCID: PMC1182327 [dostęp 2017-01-31] .
↑ DavidD. Colquhoun DavidD., An investigation of the false discovery rate and the misinterpretation of p-values, „Royal Society Open Science”, 1 (3), 2014, s. 140216, DOI: 10.1098/rsos.140216, ISSN 2054-5703, PMID: 26064558, PMCID: PMC4448847 [dostęp 2017-01-31] (ang.).
↑ Douglas GrahamD.G. Altman Douglas GrahamD.G., John MartinJ.M. Bland John MartinJ.M., Statistics Notes: Diagnostic tests 2: predictive values, „British Medical Journal”, 309 (6947), 1994, s. 102, DOI: 10.1136/bmj.309.6947.102, ISSN 0959-8138, PMID: 8038641 [dostęp 2017-01-31] (ang.).

[1] Rupert G.R.G. Miller Rupert G.R.G., Simultaneous statistical inference, Springer-Verlag, 1981, ISBN 0-387-90548-0 .

[:0-2] Jo’awJ.’ Benjamini Jo’awJ.’, Simultaneous and selective inference: Current successes and future challenges, „Biometrical Journal”, 52 (6), 2010, s. 708–721, DOI: 10.1002/bimj.200900299, ISSN 1521-4036 [dostęp 2017-01-31] (ang.).

[:3-3] AndrewA. Gelman AndrewA., JenniferJ. Hill JenniferJ., MasanaoM. Yajima MasanaoM., Why we (usually) don’t have to worry about multiple comparisons, „arXiv:0907.2478 [stat]”, 14 lipca 2009, arXiv:0907.2478 [dostęp 2017-01-31] .

[:4-4] Andrew V.A.V. Frane Andrew V.A.V., Are Per-Family Type I Error Rates Relevant in Social and Behavioral Science?, „Journal of Modern Applied Statistical Methods”, 14 (1), 2015 [dostęp 2017-01-31] (ang.).

[:1-5] Stanley S.S.S. Young Stanley S.S.S., Resampling-based multiple testing: examples and methods for P-value adjustment, Wiley, 1993, ISBN 978-0-471-55761-6, OCLC 26128320 .

[:2-6] Juliet PopperJ.P. Shaffer Juliet PopperJ.P., Multiple Hypothesis Testing, „Annual Review of Psychology”, 46 (1;), 2003, s. 561–584, DOI: 10.1146/annurev.ps.46.020195.003021 [dostęp 2017-01-31] (ang.).

[7] JohnJ. Ioannidis JohnJ., Why Most Published Research Findings Are False, „PLOS Medicine”, 2 (8), 2005, e124, DOI: 10.1371/journal.pmed.0020124, ISSN 1549-1676, PMID: 16060722, PMCID: PMC1182327 [dostęp 2017-01-31] .

[8] DavidD. Colquhoun DavidD., An investigation of the false discovery rate and the misinterpretation of p-values, „Royal Society Open Science”, 1 (3), 2014, s. 140216, DOI: 10.1098/rsos.140216, ISSN 2054-5703, PMID: 26064558, PMCID: PMC4448847 [dostęp 2017-01-31] (ang.).

[9] Douglas GrahamD.G. Altman Douglas GrahamD.G., John MartinJ.M. Bland John MartinJ.M., Statistics Notes: Diagnostic tests 2: predictive values, „British Medical Journal”, 309 (6947), 1994, s. 102, DOI: 10.1136/bmj.309.6947.102, ISSN 0959-8138, PMID: 8038641 [dostęp 2017-01-31] (ang.).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]