[go: up one dir, main page]

Przejdź do zawartości

Paradoks Lindleya

Z Wikipedii, wolnej encyklopedii
Rozkład wartości p dla H1 ilustrujący, że przy wysokiej mocy wartości istotne statystycznie mogą nadal być bardziej prawdopodobne dla H0
Rozkład wartości p dla H0 i H1 przy mocy testu ~90%. Znaczna część wartości p poniżej progu istotności 0,05 pozostaje bardziej prawdopodobna dla hipotezy zerowej niż alternatywnej, co skutkuje rozbieżnością rezultatów podejścia częstościowego i bayesowskiego w tym obszarze.

Paradoks Lindleyapozorny paradoks polegający na rozbieżności rezultatów przeprowadzonych na podstawie tych samych danych testów hipotez statystycznych metodami wnioskowania częstościowego i bayesowskiego. Pierwsze podejście oszacowuje prawdopodobieństwo ekstremalnych danych przy założeniu hipotezy zerowej: Drugie podejście oszacowuje prawdopodobieństwo obu hipotez przy założeniu danych: Choć obie perspektywy są równie poprawne arytmetycznie, odpowiadają na inne pytania, przez co mogą uzyskiwać różne odpowiedzi.

Wczesne omówienie problemu przedstawił m.in. Jeffreys w 1939[1], a jego najbardziej znaną prezentację jako „paradoks” opublikował w 1957 Lindley[2] (stąd druga stosowana nazwa: paradoks Jeffreysa-Lindleya).

Niezgodność może pojawić się niezależnie od tego, czy w podejściu bayesowskim używano subiektywnego prawdopodobieństwa zaczątkowego. W badaniu o wysokiej mocy statystycznej silna prawoskośność rozkładu wartości p dla hipotezy zerowej sprawia, że wartości poniżej progu istotności mogą być bardziej prawdopodobne dla hipotezy zerowej, nawet o ortodoksyjnie nieinformatywnym rozkładzie jednostajnym. Test częstościowy zakwalifikuje je jednak jako „istotną statystycznie” przesłankę na rzecz przyjęcia, że hipoteza zerowa jest fałszywa[3]. W ocenie Lindleya, „teoria statystyczna nie znajduje usprawiedliwienia dla mechanicznej praktyki stosowania jednego kryterium istotności[2]”.

Późniejsi autorzy omówili problem m.in. w kontekście fizyki[4], uczenia maszynowego[5], finansów[6], czy epidemiologii[7]. Pułapki interpretacyjne, jakie tworzy, mogą być częściowo łagodzone przez przedstawianie w badaniach miar wielkości efektu, stosowanie przedziałów ufności, oraz testowanie konkretnych hipotez alternatywnych zamiast hipotezy zerowej[8] (do czego służą procedury takie jak testy równoważności[9]).

Przypisy

[edytuj | edytuj kod]
  1. VII: Frequency definitions and direct methods, [w:] Harold Jeffreys, Theory of probability, wyd. 3rd ed, (sekcja 7.21 i następne), Oxford [Oxfordshire]: Clarendon Press, 1998, s. 358, ISBN 0-19-850368-7, OCLC 41071094 [dostęp 2019-03-14].
  2. a b Dennis Victor Lindley, A statistical paradox, „Biometrika”, 44 (1–2), 1957, s. 187–192, DOI10.1093/biomet/44.1-2.187, ISSN 0006-3444 [dostęp 2019-03-14] (ang.).
  3. Thomas Sellke, M.J. Bayarri, James O. Berger, Calibration of ρ Values for Testing Precise Null Hypotheses, „The American Statistician”, 55 (1), 2001, s. 62–71, DOI10.1198/000313001300339950, ISSN 0003-1305 [dostęp 2019-03-14].
  4. Robert D. Cousins, The Jeffreys–Lindley paradox and discovery criteria in high energy physics, „Synthese”, 194 (2), 2017, s. 395–432, DOI10.1007/s11229-014-0525-z, ISSN 0039-7857, arXiv:1310.3791 [dostęp 2019-03-14] (ang.).
  5. D. Berrar, W. Dubitzky, On the Jeffreys-Lindley Paradox and the Looming Reproducibility Crisis in Machine Learning, 2017 IEEE International Conference on Data Science and Advanced Analytics (DSAA), październik 2017, s. 334–340, DOI10.1109/DSAA.2017.3 [dostęp 2019-03-14].
  6. Jae H. Kim, Philip Inyeob Ji, Significance testing in empirical finance: A critical review and assessment, „Journal of Empirical Finance”, 34, 2015, s. 1–14, DOI10.1016/j.jempfin.2015.08.006 [dostęp 2019-03-14] (ang.).
  7. Richard Hooper, The Bayesian interpretation of a P-value depends only weakly on statistical power in realistic situations, „Journal of Clinical Epidemiology”, 62 (12), 2009, s. 1242–1247, DOI10.1016/j.jclinepi.2009.02.004, ISSN 0895-4356, PMID19398295 [dostęp 2019-03-14] (ang.).
  8. Martin A. Lindquist, Brian Caffo, Ciprian Crainiceanu, Ironing out the statistical wrinkles in “Ten Ironic Rules”, „NeuroImage”, 81, 2013, s. 499–502, DOI10.1016/j.neuroimage.2013.02.056, ISSN 1053-8119, PMID23587691, PMCIDPMCPMC3730443 [dostęp 2019-03-14].
  9. Daniël Lakens, Anne M. Scheel, Peder M. Isager, Equivalence Testing for Psychological Research: A Tutorial, „Advances in Methods and Practices in Psychological Science”, 1 (2), 2018, s. 259–269, DOI10.1177/2515245918770963, ISSN 2515-2459 [dostęp 2019-03-14] (ang.).