En funktion i en datauppsättning som är viktig att bestämma är om den innehåller några utskott. Outliers anses intuitivt som värden i vår datamängd som skiljer sig mycket från en majoritet av resten av uppgifterna. Naturligtvis är denna förståelse av utdelare tvetydig. Hur mycket ska värdet avvika från resten av uppgifterna för att betraktas som en utläggare? Är det en forskare kallar en förälder som kommer att matcha med en annans? För att tillhandahålla viss konsistens och ett kvantitativt mått för bestämning av utstrålare använder vi inre och yttre staket.
För att hitta de inre och yttre stängslarna i en uppsättning data behöver vi först några andra beskrivande statistik. Vi börjar med att beräkna kvartiler. Detta kommer att leda till interkvartilområdet. Slutligen, med dessa beräkningar bakom oss, kommer vi att kunna bestämma inre och yttre staket.
kvartiler
De första och tredje kvartiler är en del av sammanfattning av fem nummer av alla uppsättningar av kvantitativa data. Vi börjar med att hitta median- eller mittpunkten för data efter att alla värden listas i stigande ordning. Värdena mindre än medianen motsvarar ungefär hälften av data. Vi hittar medianen för hälften av datauppsättningen, och detta är den första kvartilen.
På liknande sätt betraktar vi nu den övre halvan av datauppsättningen. Om vi hittar median för denna hälften av data, så har vi de tredje kvartilerna. Dessa kvartiler får sitt namn från det faktum att de delar upp datauppsättningen i fyra delar av samma storlek eller kvartal. Så med andra ord är ungefär 25% av alla datavärden mindre än den första kvartilen. På liknande sätt är cirka 75% av datavärdena mindre än den tredje kvartilen.
Kvartilavståndet
Nästa måste vi hitta kvartilavståndet (IQR). Detta är lättare att beräkna än den första kvartilen q1 och den tredje kvartilen q3. Allt vi behöver göra är att ta skillnaden mellan dessa två kvartiler. Detta ger oss formeln:
IQR = Q3 - Q1
IQR berättar hur spridd den mellersta halvan av vår datauppsättning är.
Hitta inre staket
Vi kan nu hitta de inre stängslarna. Vi börjar med IQR och multiplicerar detta nummer med 1,5. Vi subtraherar sedan detta nummer från den första kvartilen. Vi lägger också till detta nummer till den tredje kvartilen. Dessa två siffror utgör vårt inre staket.
Hitta de yttre stängslarna
För de yttre stängslarna börjar vi med IQR och multiplicerar detta nummer med 3. Vi subtraherar sedan detta nummer från den första kvartilen och lägger till det i den tredje kvartilen. Dessa två siffror är våra yttre staket.
Upptäcka outliers
Upptäckten av outliers blir nu lika enkelt som att bestämma var datavärdena ligger i referens till våra inre och yttre staket. Om ett enskilt datavärde är mer extremt än någon av våra yttre staket, är detta en utskjutare och kallas ibland som en stark utlöpare. Om vårt datavärde ligger mellan ett motsvarande inre och yttre staket, är detta värde en misstänkt outlier eller en mild outlier. Vi kommer att se hur detta fungerar med exemplet nedan.
Exempel
Anta att vi har beräknat den första och tredje kvartilen av våra data, och har hittat dessa värden till 50 respektive 60. Interkvartilområdet IQR = 60 - 50 = 10. Därefter ser vi att 1,5 x IQR = 15. Detta innebär att de inre stängslarna är 50 - 15 = 35 och 60 + 15 = 75. Detta är 1,5 x IQR mindre än den första kvartilen och mer än den tredje kvartilen.
Vi beräknar nu 3 x IQR och ser att detta är 3 x 10 = 30. De yttre stängslarna är 3 x IQR mer extrema än de första och tredje kvartilerna. Detta innebär att de yttre stängslarna är 50 - 30 = 20 och 60 + 30 = 90.
Alla datavärden som är mindre än 20 eller högre än 90 betraktas som utslagare. Alla datavärden mellan 29 och 35 eller mellan 75 och 90 är misstänkta utdelare.