Bootstrapping är en statistisk teknik som faller under den bredare rubriken resampling. Denna teknik involverar en relativt enkel procedur men upprepas så många gånger att den är starkt beroende av datorberäkningar. Bootstrapping tillhandahåller en annan metod än konfidensintervall för att uppskatta en populationsparameter. Bootstrapping verkar fungera som magi. Läs vidare för att se hur det får sitt intressanta namn.
En förklaring till bootstrapping
Ett mål av slutsatsstatistik är att bestämma värdet på en parameter för en population. Det är vanligtvis för dyrt eller till och med omöjligt att mäta detta direkt. Så vi använder statistisk provtagning. Vi provar en population, mäter en statistik över detta prov och använder sedan denna statistik för att säga något om motsvarande parameter av populationen.
Till exempel i en chokladfabrik kan vi kanske garantera att godisbarer har en speciell betyda vikt. Det är inte möjligt att väga varje godisbar som produceras, så vi använder provtagningstekniker för att slumpmässigt välja 100 godisbarer. Vi beräknar medelvärdet av dessa 100 godisbarer och säger att befolkningsmedlet faller inom en felmarginal från vad genomsnittet för vårt prov är.
Anta att vi några månader senare vill veta med större noggrannhet - eller mindre om en felmarginal - vad den genomsnittliga godisstångens vikt var den dagen vi provade produktionslinjen. Vi kan inte använda dagens godisbarer också många variabler har kommit in i bilden (olika satser med mjölk, socker och kakaobönor, olika atmosfäriska förhållanden, olika anställda på linjen, etc.). Allt vi har från den dagen vi är nyfiken på är de 100 vikterna. Utan en tidsmaskin tillbaka till den dagen verkar det som om den inledande felmarginen är den bästa som vi kan hoppas på.
Lyckligtvis kan vi använda teknik för bootstrapping. I denna situation, slumpmässigt prov med ersättning från de 100 kända vikterna. Vi kallar det här ett bootstrap-prov. Eftersom vi tillåter ersättning är detta bootstrap-prov troligen inte identiskt med vårt ursprungliga prov. Vissa datapunkter kan dupliceras och andra datapunkter från de initiala 100 kan utelämnas i ett bootstrap-prov. Med hjälp av en dator kan tusentals bootstrap-prover konstrueras på relativt kort tid.
Ett exempel
Som nämnts måste vi använda en dator för att verkligen använda bootstrap-tekniker. Följande numeriska exempel hjälper till att visa hur processen fungerar. Om vi börjar med provet 2, 4, 5, 6, 6, är alla följande möjliga bootstrap-prover:
- 2 ,5, 5, 6, 6
- 4, 5, 6, 6, 6
- 2, 2, 4, 5, 5
- 2, 2, 2, 4, 6
- 2, 2, 2, 2, 2
- 4,6, 6, 6, 6
Teknikens historia
Bootstrap-teknikerna är relativt nya inom statistikområdet. Den första användningen publicerades i ett papper 1979 av Bradley Efron. När datorkraften har ökat och blir billigare, har bootstrap-tekniker blivit mer utbredda.
Varför namnet startar?
Namnet "bootstrapping" kommer från frasen "Att lyfta sig själv med sina bootstraps." Detta hänvisar till något som är oerhört och omöjligt. Försök så hårt du kan, du kan inte lyfta dig själv i luften genom att dra i läderbitar på dina stövlar.
Det finns en viss matematisk teori som motiverar bootstrapping-tekniker. Användningen av bootstrapping känns dock som om du gör det omöjliga. Även om det inte verkar som om du skulle kunna förbättra beräkningen av en befolkningsstatistik genom att återanvända samma prov om och om igen, kan bootstrapping faktiskt göra det.