EN paradox är ett uttalande eller fenomen som på ytan verkar motsägelsefulla. Paradoxer hjälper till att avslöja den underliggande sanningen under ytan på vad som verkar vara absurt. Inom statistikområdet visar Simpsons paradox vilka slags problem som uppstår genom att kombinera data från flera grupper.
Med all information måste vi vara försiktiga. Var kom det ifrån? Hur erhölls det? Och vad säger det egentligen? Dessa är alla bra frågor som vi bör ställa när de presenteras med data. Det mycket överraskande fallet med Simpsons paradox visar oss att det som uppgifterna verkar säga ibland inte riktigt är fallet.
En översikt över paradoxen
Anta att vi observerar flera grupper och skapar en relation eller korrelation för var och en av dessa grupper. Simpsons paradox säger att när vi kombinerar alla grupperna tillsammans och tittar på data i aggregerad form kan korrelationen som vi märkte tidigare vända sig själv. Detta beror ofta på lurande variabler som inte har beaktats, men ibland beror det på de numeriska värdena på data.
Exempel
För att få lite mer känsla av Simpsons paradox, låt oss titta på följande exempel. På ett visst sjukhus finns det två kirurger. Kirurg A arbetar med 100 patienter och 95 överlever. Kirurg B arbetar med 80 patienter och 72 överlever. Vi överväger att ha utfört operation på detta sjukhus och att leva genom operationen är något som är viktigt. Vi vill välja det bättre av de två kirurgerna.
Vi tittar på uppgifterna och använder dem för att beräkna vilken procentandel av kirurg A: s patienter som överlevde sina operationer och jämför dem med överlevnadshastigheten för patienterna i kirurg B.
- 95 patienter av 100 överlevde med kirurg A, så 95/100 = 95% av dem överlevde.
- 72 patienter av 80 överlevde med kirurg B, så 72/80 = 90% av dem överlevde.
Från denna analys, vilken kirurg ska vi välja att behandla oss? Det verkar som om kirurgen A är den säkrare insatsen. Men är det verkligen sant?
Tänk om vi gjorde några ytterligare undersökningar av uppgifterna och konstaterade att sjukhuset ursprungligen hade övervägt två olika typer av operationer, men klumpade sedan samman all information för att rapportera om var och en av dem kirurger. Inte alla operationer är lika, vissa betraktades som högrisk akutoperationer, medan andra var av mer rutinmässig karaktär som hade planerats i förväg.
Av de 100 patienter som kirurg A behandlade var 50 hög risk, varav tre dog. De andra 50 ansågs rutinmässiga och av dessa två dog. Detta betyder att en patient som behandlas av kirurg A för en rutinoperation har en överlevnadsgrad på 48/50 = 96%.
Nu tittar vi mer noggrant på data för kirurg B och finner att av 80 patienter var 40 hög risk, varav sju dog. De andra 40 var rutina och bara en dog. Detta innebär att en patient har en överlevnadsgrad på 39/40 = 97,5% för en rutinoperation med kirurg B.
Vilken kirurg verkar nu bättre? Om din operation ska vara rutinmässig är kirurgen B faktiskt den bättre kirurgen. Om vi tittar på alla kirurger som utförs av kirurgerna, är A bättre. Detta är ganska motsatt. I detta fall påverkar den lurande variabeln av typen av kirurgi kirurgens kombinerade data.
Historia om Simpsons paradox
Simpsons paradox är uppkallad efter Edward Simpson, som först beskrev denna paradox i tidningen 1951 "The Interpretation of Interaction in Contingency Tables" från Journal of the Royal Statistical Society. Pearson och Yule observerade vardera en liknande paradox ett halvt sekel tidigare än Simpson, så Simpsons paradox kallas ibland också Simpson-Yule-effekten.
Det finns många omfattande tillämpningar av paradoxen i områden som är så olika som sportstatistik och arbetslöshet. Varje gång data samlas, se upp för denna paradox att dyka upp.