Ibland kommer numeriska data i par. Kanske en paleontolog mäter längden på femur (benben) och humerus (armben) i fem fossiler av samma dinosaurieart. Det kan vara vettigt att överväga armlängderna separat från benlängderna och beräkna saker som medelvärdet eller standardavvikelsen. Men vad händer om forskaren är nyfiken på att veta om det finns ett samband mellan dessa två mätningar? Det räcker inte att bara titta på armarna separat från benen. Istället bör paleontologen para längden på benen för varje skelett och använda ett område på statistik känd som korrelation.
Vad är korrelation? Antag i exemplet ovan att forskaren studerade uppgifterna och nådde de inte särskilt förvånande resultat att dinosaurifossiler med längre armar också hade längre ben, och fossiler med kortare armar hade kortare ben. En spridningsdiagram av data visade att datapunkterna alla var grupperade nära en rak linje. Forskaren skulle då säga att det finns en stark rak linje relation, eller korrelation, mellan längden på armbenen och benen på fossilerna. Det kräver lite mer arbete för att säga hur stark korrelationen är.
Korrelation och Scatterplots
Eftersom varje datapunkt representerar två siffror är en tvådimensionell spridningsdiagram en stor hjälp för att visualisera data. Anta att vi faktiskt har våra händer på dinosaurdata, och de fem fossilerna har följande mätningar:
- Femur 50 cm, humerus 41 cm
- Femur 57 cm, humerus 61 cm
- Femur 61 cm, humerus 71 cm
- Femur 66 cm, humerus 70 cm
- Femur 75 cm, humerus 82 cm
En spridningsdiagram av data, med femurmätning i horisontell riktning och humerusmätning i vertikal riktning, resulterar i ovanstående graf. Varje punkt representerar mätningarna av ett av skelettarna. Till exempel motsvarar punkten längst ner till vänster skelett nr 1. Punkten längst upp till höger är skelett # 5.
Det verkar verkligen som om vi skulle kunna rita en rak linje som skulle vara mycket nära alla punkter. Men hur kan vi säga säkert? Närhet är i betraktarens öga. Hur vet vi att våra definitioner av "närhet" matchar någon annan? Finns det något sätt att vi kan kvantifiera denna närhet?
Korrelationskoefficient
För att objektivt mäta hur nära uppgifterna är att vara längs en rak linje kommer korrelationskoefficienten att rädda. De korrelationskoefficient, typiskt betecknad r, är ett verkligt tal mellan -1 och 1. Värdet av r mäter styrkan hos en korrelation baserad på en formel, eliminerar all subjektivitet i processen. Det finns flera riktlinjer att tänka på när du tolkar värdet av r.
- Om r = 0 då är punkterna ett fullständigt virvar utan absolut rätlinjeförhållande mellan data.
- Om r = -1 eller r = 1, då ställer alla datapunkter perfekt på en linje.
- Om r är ett annat värde än dessa ytterligheter, då är resultatet en mindre än perfekt passform av en rak linje. I verkliga datamängder är detta det vanligaste resultatet.
- Om r är positiv då linjen går upp med en positiv lutning. Om r är negativ då linjen går ner med negativ lutning.
Beräkningen av korrelationskoefficienten
Formeln för korrelationskoefficienten r är komplicerat, som kan ses här. Ingredienserna i formeln är medel och standardavvikelser för båda uppsättningarna av numeriska data, liksom antalet datapunkter. För de flesta praktiska tillämpningar r är tråkig att beräkna för hand. Om våra data har lagts in i en kalkylator eller ett kalkylprogram med statistiska kommandon, då finns det vanligtvis en inbyggd funktion att beräkna r.
Korrelationsbegränsningar
Även om korrelation är ett kraftfullt verktyg, finns det vissa begränsningar när det gäller att använda det:
- Korrelation berättar inte helt för oss om uppgifterna. Medel och standardavvikelser är fortsatt viktiga.
- Uppgifterna kan beskrivas med en mer komplicerad kurva än en rak linje, men detta kommer inte att visas i beräkningen av r.
- Outliers påverkar starkt korrelationskoefficienten. Om vi ser några överskridanden i våra data, bör vi vara försiktiga med vilka slutsatser vi drar av värdet av r.
- Bara för att två uppsättningar av data är korrelerade betyder det inte att en är den orsak av den andra.