Statistisk provtagning används ganska ofta i statistik. I denna process syftar vi till att bestämma något om en befolkning. Eftersom populationer vanligen är stora i storlek bildar vi ett statistiskt prov genom att välja en delmängd av befolkningen som har en förutbestämd storlek. Genom att studera urvalet kan vi använda inferentialstatistik för att bestämma något om befolkningen.
Ett statistiskt urval av storlek n involverar en enda grupp av n individer eller individer som har valts slumpmässigt från befolkningen. Nära besläktat med begreppet ett statistiskt prov är en provtagningsfördelning.
Ursprunget för provtagningsdistributioner
En provtagningsfördelning sker när vi bildar mer än en enkelt slumpmässigt prov av samma storlek från en given population. Dessa prover anses vara oberoende av varandra. Så om en person är i ett prov, har det samma sannolikhet att vara i nästa prov som tas.
Vi beräknar en viss statistik för varje prov. Detta kan vara ett prov betyda, en provvarians eller en provandel. Eftersom en statistik beror på det prov som vi har kommer varje prov typiskt att producera ett annat värde för statistiken av intresse. Området för de värden som har producerats är det som ger oss vår provtagningsfördelning.
Provtagningsdistribution för medel
Som exempel kommer vi att ta hänsyn till provtagningsfördelningen för medelvärdet. Medeltalet för en population är en parameter som vanligtvis är okänd. Om vi väljer ett prov med storlek 100, beräknas medelvärdet för detta prov enkelt genom att lägga till alla värden tillsammans och sedan dela med det totala antalet datapunkter, i detta fall 100. Ett prov på storlek 100 kan ge oss ett medelvärde på 50. Ett annat sådant prov kan ha ett medelvärde på 49. Ytterligare 51 och ett annat prov kan ha medelvärde på 50,5.
Distributionen av dessa provmedel ger oss en provtagningsfördelning. Vi skulle vilja överväga mer än bara fyra provmedel som vi har gjort ovan. Med ytterligare flera provmedel skulle vi ha en god uppfattning om formen på provtagningsfördelningen.
Varför bryr vi oss?
Provtagningsfördelningar kan verka ganska abstrakta och teoretiska. Det finns dock några mycket viktiga konsekvenser av att använda dessa. En av de viktigaste fördelarna är att vi eliminerar variationen som finns i statistiken.
Anta till exempel att vi börjar med en population med ett medelvärde på μ och standardavvikelse för σ. Standardavvikelsen ger oss en mätning av hur spridd distributionen är. Vi kommer att jämföra detta med en provtagningsfördelning som erhålls genom att skapa enkla slumpmässiga prover av storlek n. Provtagningsfördelningen för medelvärdet kommer fortfarande att ha ett medelvärde på μ, men standardavvikelsen är annorlunda. Standardavvikelsen för en provtagningsfördelning blir σ / √ n.
Således har vi följande
- En provstorlek på 4 tillåter oss att ha en provtagningsfördelning med en standardavvikelse på σ / 2.
- En provstorlek på 9 tillåter oss att ha en provtagningsfördelning med en standardavvikelse på σ / 3.
- En provstorlek på 25 tillåter oss att ha en provtagningsfördelning med en standardavvikelse på σ / 5.
- En provstorlek 100 tillåter oss att ha en provtagningsfördelning med en standardavvikelse på σ / 10.
I praktiken
I praktiken av statistik bildar vi sällan provtagningsfördelningar. Istället behandlar vi statistik som härrör från ett enkelt slumpmässigt urval av storlek n som om de är en punkt längs en motsvarande provtagningsfördelning. Detta betonar återigen varför vi vill ha relativt stora provstorlekar. Ju större provstorlek, desto mindre variation kommer vi att få i vår statistik.
Observera att vi, utom centrum och spridning, inte kan säga något om formen på vår provtagningsfördelning. Det visar sig att under vissa ganska breda förhållanden, Centrala gränsvärdessatsen kan appliceras för att berätta något ganska fantastiskt om formen på en provtagningsfördelning.