En introduktion till Interquartile Range

click fraud protection

Interkvartilintervallet (IQR) är skillnaden mellan den första kvartilen och den tredje kvartilen. Formeln för detta är:

IQR = Q3 - Q1

Det finns många mätningar av variationen i en uppsättning data. Både räckvidd och standardavvikelse berätta för oss hur spridda våra uppgifter är. Problemet med denna beskrivande statistik är att de är ganska känsliga för outliers. En mätning av spridningen av en datasats som är mer motståndskraftig mot förekomsten av utskott är interkvartilområdet.

Definition av Interquartile Range

Som ses ovan bygger interkvartilområdet på beräkningen av annan statistik. Innan vi bestämmer interkvartilområdet måste vi först känna till värdena på den första kvartilen och den tredje kvartilen. (Naturligtvis beror de första och tredje kvartilerna på medianvärdet).

När vi har bestämt värdena på den första och den tredje kvartilen, är interkvartilområdet mycket lätt att beräkna. Allt vi behöver göra är att subtrahera den första kvartilen från den tredje kvartilen. Detta förklarar användningen av termen interkvartilintervall för denna statistik.

instagram viewer

Exempel

För att se ett exempel på beräkningen av ett interkvartilt intervall kommer vi att överväga datauppsättningen: 2, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9. De sammanfattning av fem nummer för denna uppsättning data är:

  • Minst 2
  • Första kvartilen på 3,5
  • Median av 6
  • Tredje kvartilen av 8
  • Maximalt 9

Således ser vi att interkvartilintervallet är 8 - 3,5 = 4,5.

Betydelsen av Interquartile Range

Räckvidden ger oss en mätning av hur spridd helheten i vår datamängd är. Interkvartilområdet, som berättar hur långt ifrån varandra första och tredje kvartilen är, indikerar hur spridda 50% av vår datamängd är.

Motstånd mot utslagare

Den primära fördelen med att använda interkvartilintervallet snarare än intervallet för mätning av spridningen av en datamängd är att interkvartilintervallet inte är känsligt för outliers. För att se detta kommer vi att titta på ett exempel.

Från uppsättningen av data ovan har vi ett interkvartilt intervall på 3,5, ett intervall på 9 - 2 = 7 och en standardavvikelse på 2,34. Om vi ​​ersätter det högsta värdet 9 med en extrem outlier på 100, blir standardavvikelsen 27,37 och intervallet 98. Även om vi har ganska drastiska förändringar av dessa värden, påverkas de första och tredje kvartilerna och interkartilområdet ändras inte.

Användning av Interquartile Range

Förutom att det är ett mindre känsligt mått på spridningen av en datauppsättning har interkvartilområdet en annan viktig användning. På grund av sin motståndskraft mot outliers är interkvartilområdet användbart för att identifiera när ett värde är ett outlier.

De interkvartil intervallregel är det som informerar oss om vi har en mild eller stark outlier. För att leta efter en överskridare måste vi titta under den första kvartilen eller över den tredje kvartilen. Hur långt vi ska gå beror på värdet på interkvartilområdet.

instagram story viewer