Hur man beräknar korrelationskoefficienten

Det finns många frågor att ställa när man tittar på en scatterplot. En av de vanligaste är att undra hur väl en rak linje närmar sig data. För att hjälpa till att svara på det finns det en beskrivande statistik som kallas korrelationskoefficienten. Vi kommer att se hur man beräknar denna statistik.

Korrelationskoefficienten

De korrelationskoefficient, betecknad med r, berättar hur nära data i a spridningsdiagram falla längs en rak linje. Ju närmare det det absoluta värdet av r är till en, desto bättre att data beskrivs med en linjär ekvation. Om r = 1 eller r = -1 då är datauppsättningen perfekt anpassad. Datauppsättningar med värden på r nära noll visar liten eller ingen linjär relation.

På grund av de långa beräkningarna är det bäst att beräkna r med hjälp av en kalkylator eller statistisk programvara. Det är emellertid alltid en värdefull strävan att veta vad din kalkylator gör när den beräknar. Det följande är en process för beräkning av korrelationskoefficienten huvudsakligen för hand, med en räknare som används för rutinmässiga aritmetiska steg.

instagram viewer

Steg för beräkning r

Vi börjar med att lista stegen till beräkningen av korrelationskoefficienten. Uppgifterna vi arbetar med är parade data, vars par kommer att betecknas med (xjag, yjag).

  1. Vi börjar med några preliminära beräkningar. Mängderna från dessa beräkningar kommer att användas i följande steg i vår beräkning av r:
    1. Beräkna x̄, betyda av alla de första koordinaterna för uppgifterna xjag.
    2. Beräkna ȳ, medelvärdet för alla andra koordinater för data
    3. yjag.
    4. Beräkna s x provexemplaret standardavvikelse av alla de första koordinaterna för uppgifterna xjag.
    5. Beräkna s y provstandardavvikelsen för alla de andra koordinaterna för data yjag.
  2. Använd formeln (zx)jag = (xjag - x̄) / s x och beräkna ett standardiserat värde för varje xjag.
  3. Använd formeln (zy)jag = (yjag – ȳ) / s y och beräkna ett standardiserat värde för varje yjag.
  4. Multiplicera motsvarande standardiserade värden: (zx)jag(zy)jag
  5. Lägg till produkterna från det sista steget tillsammans.
  6. Dela summan från föregående steg med n - 1, där n är det totala antalet poäng i vår uppsättning av parade data. Resultatet av allt detta är korrelationskoefficienten r.

Denna process är inte svår, och varje steg är ganska rutinmässigt, men samlingen av alla dessa steg är ganska involverad. Beräkningen av standardavvikelsen är tillräckligt tråkig på egen hand. Men beräkningen av korrelationskoefficienten involverar inte bara två standardavvikelser, utan en mängd andra operationer.

Ett exempel

För att se exakt hur värdet på r erhålls ser vi på ett exempel. Återigen är det viktigt att notera att för praktiska applikationer skulle vi vilja använda vår kalkylator eller statistiska programvara för att beräkna r för oss.

Vi börjar med en lista över parade data: (1, 1), (2, 3), (4, 5), (5,7). Medelvärdet för x värden, medelvärdet av 1, 2, 4 och 5 är x̄ = 3. Vi har också ȳ = 4. Standardavvikelsen för

x värden är sx = 1,83 och sy = 2.58. Tabellen nedan sammanfattar de andra beräkningar som behövs för r. Summan av produkterna i kolumnen längst till höger är 2.969848. Eftersom det finns totalt fyra poäng och 4 - 1 = 3, delar vi summan av produkterna med 3. Detta ger oss en korrelationskoefficient på r = 2.969848/3 = 0.989949.

Tabell för exempel på beräkning av korrelationskoefficient

x y zx zy zxzy
1 1 -1.09544503 -1.161894958 1.272792057
2 3 -0.547722515 -0.387298319 0.212132009
4 5 0.547722515 0.387298319 0.212132009
5 7 1.09544503 1.161894958 1.272792057