Skillnader mellan korrelation och orsak

En dag vid lunchen ätit en ung kvinna en stor skål med glass, och en kollegialmedlem gick upp till henne och sa: "Du borde vara försiktig, det finns en hög statistiskkorrelation mellan glass och drunkning. ” Hon måste ha gett honom en förvirrad blick eftersom han utarbetade lite mer. "Dagar med mest försäljning av glass ser också att de flesta drunknar."

När hon var färdig med min glass diskuterade de två kollegorna det faktum att bara för att en variabel är statistiskt associerad med en annan, betyder det inte att den ena är orsaken till den andra. Ibland finns det en variabel som gömmer sig i bakgrunden. I det här fallet gömmer sig dagen på året i uppgifterna. Mer glass säljs på varma sommardagar än snöiga vintern. Fler människor simmar på sommaren och därmed mer drunknar på sommaren än på vintern.

Se upp för lurande variabler

Ovanstående anekdot är ett utmärkt exempel på vad som kallas en lurande variabel. Som namnet antyder kan en lurande variabel vara svårfångad och svår att upptäcka. När vi upptäcker att två numeriska datamängder är starkt korrelerade bör vi alltid fråga, "Kan det finnas något annat som orsakar detta förhållande?"

instagram viewer

Följande är exempel på stark korrelation orsakad av en lurande variabel:

  • Det genomsnittliga antalet datorer per person i ett land och det lands genomsnittliga livslängden.
  • Antalet brandmän vid en brand och skadorna orsakade av branden.
  • Högskolan på en grundskolestudent och hans eller hennes läsnivå.

I alla dessa fall är förhållandet mellan variablerna mycket starkt. Detta indikeras vanligtvis med a korrelationskoefficient som har ett värde nära 1 eller -1. Det spelar ingen roll hur nära denna korrelationskoefficient är 1 eller -1, denna statistik kan inte visa att en variabel är orsaken till den andra variabeln.

Upptäckt av lurande variabler

I sin natur är lurande variabler svåra att upptäcka. En strategi, om tillgänglig, är att undersöka vad som händer med uppgifterna över tid. Detta kan avslöja säsongsbetonade trender, som exempel på glass, som blir dolda när uppgifterna klumpas samman. En annan metod är att titta på outliers och försöka bestämma vad som gör dem annorlunda än andra data. Ibland ger detta en antydning om vad som händer bakom kulisserna. Den bästa handlingen är att vara proaktiv; ifrågasätta antaganden och designexperiment noggrant.

Varför spelar det någon roll?

Antag att i ett inledande scenarie föreslog en välmenande men statistiskt oinformerad kongressmedlem att förbjuda all glass för att förhindra drunkning. En sådan lagförslag skulle besvära stora delar av befolkningen, tvinga flera företag i konkurs och eliminera tusentals jobb när landets glassindustri stängs. Trots de bästa avsikterna skulle detta lagförslag inte minska antalet drunknande dödsfall.

Om exemplet verkar lite för långt hämtat, tänk på följande, som faktiskt hände. I början av 1900-talet märkte läkarna att vissa spädbarn dör på mystiskt sätt i sömnen på grund av uppfattade andningsproblem. Detta kallades spjälsdöd och är nu känt som SIDS. En sak som sticker ut från obduktioner som utfördes på dem som dog av SIDS var en förstorad thymus, en körtel i bröstet. Från sambandet mellan förstorade thymuskörtlar hos SIDS-babyer antog läkarna att en onormalt stor tymus orsakade felaktig andning och död.

Den föreslagna lösningen var att krympa tymusen med höga strålningsnivåer eller att ta bort körteln helt. Dessa förfaranden hade en hög dödlighet och ledde till ännu fler dödsfall. Det som är tråkigt är att dessa operationer inte behövde utföras. Efterföljande forskning har visat att dessa läkare tog fel i sina antaganden och att tymusen inte är ansvarig för SIDS.

Korrelation innebär inte orsak

Ovanstående bör få oss till paus när vi tror att statistiska bevis används för att motivera saker som medicinska regimer, lagstiftning och utbildningsförslag. Det är viktigt att ett bra arbete görs för att tolka data, särskilt om resultat med korrelation kommer att påverka andras liv.

När någon säger, "Studier visar att A är en orsak till B och en del statistik säkerhetskopierar det", var redo att svar, "korrelation innebär inte orsakssamband." Var alltid på jakt efter vad som lurer under data.

instagram story viewer