Interkvartilintervallregeln är användbar för att upptäcka närvaron av outliers. outliers är individuella värden som faller utanför det övergripande mönstret för en datamängd. Denna definition är något vag och subjektiv, så det är bra att ha en regel som ska tillämpas när att bestämma om en datapunkt verkligen är en överspänning - det är här interquartile intervallet regel kommer in.
Varje uppsättning data kan beskrivas med dess sammanfattning av fem siffror. Dessa fem siffror, som ger dig den information du behöver för att hitta mönster och outliers, består av (i stigande ordning):
Dessa fem siffror berättar för en person mer om sina data än att titta på siffrorna på en gång kan, eller åtminstone göra det mycket lättare. Till exempel räckvidd, som är det minsta som subtraheras från det maximala, är en indikator på hur spridningen av uppgifterna är i en uppsättning (not: intervallet är mycket känslig för outliers - om en outlier också är ett minimum eller maximalt kommer intervallet inte att vara en exakt bild av bredden på en data uppsättning).
Omfång skulle vara svårt att extrapolera annars. Liknar intervallet men mindre känsligt för utskott är interkvartilområdet. De kvartilavståndet beräknas på ungefär samma sätt som intervallet. Allt du gör för att hitta det är att subtrahera den första kvartilen från den tredje kvartilen:
Interkvartilområdet visar hur informationen sprids om medianen. Det är mindre mottagligt än intervallet för utdelare och kan därför vara mer användbart.
Även om det inte ofta påverkas av dem, kan interkvartilområdet användas för att upptäcka utskott. Detta görs med hjälp av dessa steg:
Kom ihåg att interkvartilregeln endast är en tumregel som vanligtvis gäller men inte gäller för alla fall. I allmänhet bör du alltid följa upp din överskottsanalys genom att studera de resulterande utdelarna för att se om de är vettiga. Alla potentiella outlier som erhålls med interkvartilmetoden bör undersökas i samband med hela uppsättningen av data.
Se interquartile intervallegeln på jobbet med ett exempel. Anta att du har följande uppsättning data: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Sammanfattningen av fem siffror för denna datamängd är minst = 1, första kvartilen = 4, median = 7, tredje kvartilen = 10 och maximalt = 17. Du kanske tittar på uppgifterna och säger automatiskt att 17 är en överspänning, men vad säger regeln mellan kvartalerna?
Multiplicera nu ditt svar med 1,5 för att få 1,5 x 6 = 9. Nio mindre än den första kvartilen är 4 - 9 = -5. Inga uppgifter är mindre än detta. Nio mer än den tredje kvartilen är 10 + 9 = 19. Inga uppgifter är större än detta. Trots att det maximala värdet är fem fler än den närmaste datapunkten, visar interkvarteringsregeln att det troligtvis inte bör betraktas som en utligare för denna datamängd.