Exempel på bootstrapping i statistik

Bootstrapping är en kraftfull statistisk teknik. Det är särskilt användbart när prov storleken som vi arbetar med är liten. Under vanliga omständigheter kan provstorlekar mindre än 40 inte hanteras genom att anta a normal distribution eller a t distribution. Bootstrap-tekniker fungerar ganska bra med prover som har mindre än 40 element. Anledningen till detta är att bootstrapping innebär en omampling. Dessa typer av tekniker antar ingenting om distribution av våra uppgifter.

Bootstrapping har blivit mer populärt eftersom datorresurser har blivit mer lättillgängliga. Detta beror på att en dator måste användas för att bootstrapping ska vara praktiskt. Vi kommer att se hur detta fungerar i följande exempel på bootstrapping.

Vi börjar med ett statistiskt prov från en befolkning som vi inte vet något om. Vårt mål är 90% konfidensintervall om genomsnittet för urvalet. Även om andra statistiska tekniker används för att bestämma förtroendeintervaller antar att vi vet genomsnittet eller standardavvikelsen för vår befolkning, bootstrapping kräver inte annat än urvalet.

instagram viewer

I vårt exempel kommer vi att anta att provet är 1, 2, 4, 4, 10.

Vi samplar nu med ersättning från vårt prov för att bilda vad som kallas bootstrap-prover. Varje bootstrap-prov har en storlek på fem, precis som vårt ursprungliga prov. Eftersom vi slumpmässigt väljer och sedan ersätter varje värde, kan bootstrap-proverna skilja sig från det ursprungliga provet och från varandra.

För exempel som vi skulle stöta på i den verkliga världen, skulle vi göra detta med nya hundratals om inte tusentals gånger. I vad som följer nedan ser vi ett exempel på 20 bootstrap-prover:

Eftersom vi använder bootstrapping för att beräkna ett konfidensintervall för befolkningsmedlet, beräknar vi nu medel för vart och ett av våra bootstrap-prover. Dessa organ, arrangerade i stigande ordning är: 2, 2,4, 2,6, 2,6, 2,8, 3, 3, 3,2, 3,4, 3,6, 3,8, 4, 4, 4,2, 4,6, 5,2, 6, 6, 6,6, 7,6.

Nu får vi från vår lista över bootstrap-prov ett konfidensintervall. Eftersom vi vill ha ett 90% konfidensintervall, använder vi de 95: e och femte percentilerna som slutpunkter för intervallerna. Anledningen till detta är att vi delar upp 100% - 90% = 10% i hälften så att vi får de mittersta 90% av allt bootstrap-provmedlet.