Hur man uppskattar standardavvikelser (SD)

Standardavvikelsen och intervallet är båda måtten på spridning av en datauppsättning. Varje nummer berättar på sitt sätt hur uppdelade data är, eftersom de båda är ett mått på variation. Även om det inte finns ett uttryckligt samband mellan räckvidd och standardavvikelse, det finns en tumregel som kan vara användbart för att relatera dessa två statistik. Detta förhållande kallas ibland intervallregeln för standardavvikelse.

Räckviddsregeln säger att standardavvikelsen för ett prov är ungefär lika med en fjärdedel av dataområdet. Med andra ords = (Maximum - Minimum) / 4. Detta är en mycket enkel formel att använda och bör endast användas som en mycket grov uppskattning av standardavvikelsen.

Ett exempel

För att se ett exempel på hur intervallregeln fungerar kommer vi att titta på följande exempel. Anta att vi börjar med datavärdena 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Dessa värden har en betyda av 17 och en standardavvikelse på cirka 4,1. Om vi istället beräknar intervallet för våra data som 25 - 12 = 13 och sedan dela upp detta nummer med fyra har vi vår uppskattning av standardavvikelsen som 13/4 = 3,25. Detta antal är relativt nära den verkliga standardavvikelsen och bra för en grov uppskattning.

instagram viewer

Varför fungerar det?

Det kan tyckas som att intervallregeln är lite konstig. Varför fungerar det? Verkar det inte helt godtyckligt att bara dela räckvidden med fyra? Varför skulle vi inte dela med ett annat nummer? Det finns faktiskt någon matematisk motivering som pågår bakom kulisserna.

Återkalla egenskaperna hos klockkurva och sannolikheterna från a standard normalfördelning. En funktion har att göra med mängden data som faller inom ett visst antal standardavvikelser:

Cirka 68% av uppgifterna ligger inom en standardavvikelse (högre eller lägre) från medelvärdet.
Cirka 95% av uppgifterna ligger inom två standardavvikelser (högre eller lägre) från medelvärdet.
Cirka 99% ligger inom tre standardavvikelser (högre eller lägre) från medelvärdet.

Det antal vi kommer att använda har att göra med 95%. Vi kan säga att 95% från två standardavvikelser under medelvärdet till två standardavvikelser över medelvärdet, vi har 95% av våra data. Således skulle nästan all vår normala fördelning sträcka sig över ett linjesegment som är totalt fyra standardavvikelser långa.

Alla data distribueras inte normalt och klockkurvan formas. Men de flesta uppgifter är tillräckligt uppträdda för att gå två standardavvikelser från medelvärdet fångar nästan all data. Vi uppskattar och säger att fyra standardavvikelser är ungefär storleken på intervallet, så att intervallet dividerat med fyra är en grov approximation av standardavvikelsen.

Användningar för räckviddsregeln

Områdesregeln är användbar i ett antal inställningar. För det första är det en mycket snabb uppskattning av standardavvikelsen. Standardavvikelsen kräver att vi först hittar medelvärdet och sedan drar bort detta medelvärde från varje datapunkt, kvadrat skillnaderna, lägg till dessa, dela med en mindre än antalet datapunkter, sedan (äntligen) ta fyrkanten rot. Å andra sidan kräver intervallregeln bara en subtraktion och en division.

Andra platser där intervallegeln är användbar är när vi har ofullständig information. Formler som sådana för att bestämma provstorlek kräver tre informationsdelar: önskad felmarginal, nivå av förtroende och standardavvikelsen för den befolkning vi undersöker. Många gånger är det omöjligt att veta vad befolkningen standardavvikelse är. Med intervallregeln kan vi uppskatta denna statistik och sedan veta hur stort vi ska göra vårt prov.