Paradosso di Simpson
In statistica, il paradosso di Simpson indica una situazione in cui una relazione tra due fenomeni appare modificata, o perfino invertita, dai dati in possesso a causa di altri fenomeni non presi in considerazione nell'analisi (variabili nascoste). È alla base di frequenti errori nelle analisi statistiche nell'ambito delle scienze sociali e mediche, ma non solo[1].
Storia
[modifica | modifica wikitesto]Fu descritto da George Udny Yule, nell'articolo Notes on the theory of association of attributes in Statistics, comparso in Biometrika nel 1903, e da E. H. Simpson, con l'articolo "The interpretation of interaction in contingency tables", pubblicato nel Journal of the Royal Statistical Society (1951).
Definizione formale
[modifica | modifica wikitesto]Benché
accade che
dove è la probabilità di condizionata dall'evento congiunto e , è l'evento complementare di e è l'evento complementare di [2]
Esempio
[modifica | modifica wikitesto]Si ipotizzi una situazione nella quale la percentuale di disoccupati tra i diplomati sia la metà rispetto alla popolazione di chi non ha conseguito il diploma.
Consideriamo però pure il fatto che, per motivi storici, tra le generazioni più anziane i diplomati siano in numero molto minore e che, per motivi legati al mercato del lavoro, tra i giovani il tasso di disoccupazione sia più elevato che tra gli anziani.
Partendo dalle seguenti due statistiche ipotetiche:
Intervistati | senza diploma | con diploma | Totale |
---|---|---|---|
Giovani | 20 | 80 | 100 |
Anziani | 120 | 30 | 150 |
Totale | 140 | 110 | 250 |
Tasso di disoccupazione | senza diploma | con diploma |
---|---|---|
Giovani | 30% | 15% |
Anziani | 5% | 3,33% |
dove abbiamo che in entrambi i casi la disoccupazione è circa doppia tra i non diplomati, rispetto ai diplomati, si può calcolare il numero di disoccupati:
Disoccupati | senza diploma | con diploma | Totale |
---|---|---|---|
Giovani | 6 | 12 | 18 |
Anziani | 6 | 1 | 7 |
Totale | 12 | 13 | 25 |
Questi valori assoluti permettono ora di calcolare il tasso di disoccupazione per i non diplomati e per i diplomati senza tenere conto dell'età. Si ottiene:
Percentuale di disoccupati | |
---|---|
senza diploma | 12/140 = 8,6% |
con diploma | 13/110 = 11,8% |
Si scopre così che tra i diplomati il tasso di disoccupazione invece che essere la metà è maggiore di un quarto che tra i non diplomati, proprio il contrario di quello che si era ipotizzato.
Questo paradosso è dovuto al fatto che il tasso di disoccupazione è nettamente maggiore nel gruppo che ha una maggiore percentuale di diplomati; trascurare l'esistenza di due relazioni fondamentali (quella tra disoccupazione e età, nonché quella tra età e titolo di studio) fa giungere a conclusioni errate[3][4].
Cause
[modifica | modifica wikitesto]Mentre nel caso precedente preparato a tavolino la contraddizione è evidente, nelle analisi statistiche reali può capitare di non accorgersi delle relazioni implicite esistenti tra le variabili e limitarsi ad analizzare dati aggregati senza incrociarli con le variabili essenziali; la contraddizione non verrebbe allora minimamente percepita, e si potrebbero trarre conclusioni completamente opposte alla vera distribuzione, con conseguenze potenzialmente molto gravi.
In situazioni meno estreme di quelle dell'esempio, le stesse cause del paradosso di Simpson possono portare a sovrastimare o sottostimare differenze tra gruppi, senza però capovolgere il "segno" della relazione.
I dati prodotti dal paradosso di Simpson chiaramente non sono sbagliati in sé, ma semplicemente devono essere letti in modo diverso da come farebbe un lettore o analista superficiale:
- tra persone con diploma ci sono più disoccupati che tra persone senza diploma
Mentre sbagliata è la conclusione superficiale che usa concetti di causa-effetto, come
- avere un diploma è la causa di una maggiore disoccupazione
Volendo usare concetti di causa effetto (spesso l'unico motivo per il quale si analizzano i dati), ma avendo a disposizione tutti i dati, si può dire:
- i giovani sono sei volte più soggetti alla disoccupazione rispetto agli anziani;
- ma sia tra i giovani che tra gli anziani avere un diploma riduce il "rischio disoccupazione" alla metà.
Note
[modifica | modifica wikitesto]- ^ Redazione Airinforma, Il paradosso di Simpson – AIRInforma, su informa.airicerca.org. URL consultato il 19 agosto 2021.
- ^ Marco Minozzo, Calcolo delle Probabilità - Paradosso di Simpson (PDF), su economiamanagement.univr.it. URL consultato il 19 agosto 2021 (archiviato dall'url originale il 19 agosto 2021).
- ^ Cicchitelli, Il paradosso di Simpson (PDF), su e-l.unifi.it, p. Cap. 9 pp. 228-230.
- ^ Silvia Turin, Israele e i vaccinati ricoverati: ecco perché i dati non mettono in dubbio l'efficacia di Pfizer, su Corriere della Sera, 18 agosto 2021. URL consultato il 19 agosto 2021.
Bibliografia
[modifica | modifica wikitesto](EN) Edward N. Zalta (a cura di), Paradosso di Simpson, in Stanford Encyclopedia of Philosophy, Center for the Study of Language and Information (CSLI), Università di Stanford.
Altri progetti
[modifica | modifica wikitesto]- Wikimedia Commons contiene immagini o altri file su Paradosso di Simpson