Outliers är datavärden som skiljer sig mycket från majoriteten av en uppsättning data. Dessa värden faller utanför en övergripande trend som finns i uppgifterna. En noggrann undersökning av en uppsättning data för att leta efter utlösare orsakar vissa svårigheter. Även om det är lätt att se, eventuellt med hjälp av en stamplot, att vissa värden skiljer sig från resten av uppgifterna, hur mycket annorlunda måste värdet anses vara ett utlöpande? Vi kommer att titta på en specifik mätning som ger oss en objektiv standard för vad som utgör en outlier.
Kvartilavståndet
De kvartilavståndet är vad vi kan använda för att bestämma om ett extremt värde verkligen är ett överskott. Interkvartilområdet baseras på en del av sammanfattning av fem siffror av en datauppsättning, nämligen första kvartilen och den tredje kvartilen. Beräkningen av interkvartilområdet innefattar en enda aritmetisk operation. Allt vi behöver göra för att hitta interkvartilområdet är att subtrahera den första kvartilen från den tredje kvartilen. Den resulterande skillnaden berättar hur spridd den mittersta hälften av våra uppgifter är.
Bestämma Outliers
Att multiplicera interquartile intervallet (IQR) med 1,5 kommer att ge oss ett sätt att avgöra om ett visst värde är ett utkast. Om vi subtraherar 1,5 x IQR från den första kvartilen, betraktas alla datavärden som är lägre än detta antal som outliers. På samma sätt, om vi lägger till 1,5 x IQR till den tredje kvartilen, betraktas alla datavärden som är större än detta antal som outliers.
Starka utslagare
Vissa outliers visar extrem avvikelse från resten av en datauppsättning. I dessa fall kan vi ta stegen ovanifrån, bara ändra antalet som vi multiplicerar IQR med och definiera en viss typ av outlier. Om vi subtraherar 3.0 x IQR från den första kvartilen, kallas alla punkter som ligger under detta nummer en stark outlier. På samma sätt tilläter tillägget av 3.0 x IQR till den tredje kvartilen att vi kan definiera starka outliers genom att titta på punkter som är större än detta antal.
Svaga outliers
Förutom starka outliers finns det en annan kategori för outliers. Om ett datavärde är en outlier men inte en stark outlier, säger vi att värdet är en svag outlier. Vi kommer att titta på dessa begrepp genom att utforska några exempel.
Exempel 1
Anta först att vi har datauppsättningen {1, 2, 2, 3, 3, 4, 5, 5, 9}. Siffran 9 ser verkligen ut som om det skulle kunna vara en överspänning. Det är mycket större än något annat värde från resten av uppsättningen. För att objektivt bestämma om 9 är en förlängare använder vi ovanstående metoder. Den första kvartilen är 2 och den tredje kvartilen är 5, vilket innebär att interkvartilområdet är 3. Vi multiplicerar interkvartilintervallet med 1,5, får 4.5 och lägger sedan till detta nummer till den tredje kvartilen. Resultatet, 9,5, är större än något av våra datavärden. Därför finns det inga outliers.
Exempel 2
Nu tittar vi på samma datauppsättning som tidigare, med undantag för att det största värdet är 10 snarare än 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Den första kvartil, tredje kvartilen och interkvartilområdet är identiska med exempel 1. När vi lägger till 1,5 x IQR = 4,5 till den tredje kvartilen, är summan 9,5. Eftersom 10 är större än 9,5 betraktas det som en överspänning.
Är 10 en stark eller svag outlier? För detta måste vi titta på 3 x IQR = 9. När vi lägger till 9 till den tredje kvartilen, slutar vi med en summa på 14. Eftersom 10 inte är större än 14 är det inte en stark outlier. Därför drar vi slutsatsen att 10 är en svag outlier.
Anledningar till att identifiera outliers
Vi måste alltid vara på jakt efter outliers. Ibland orsakas de av ett fel. Andra gånger visar outliers att det finns ett tidigare okänt fenomen. En annan anledning till att vi måste vara flitiga när det gäller att kontrollera om det är outliers är på grund av alla beskrivande statistik som är känsliga för outliers. Den elaka, standardavvikelse och korrelationskoefficient för parade data är bara några av dessa typer av statistik.