Vad är robusthet i statistik?

I statistik, termen robust eller robusthet hänvisar till styrkan hos en statistisk modell, tester och förfaranden enligt de specifika villkoren i den statistiska analysen som en studie hoppas kunna uppnå. Med tanke på att dessa villkor i en studie är uppfyllda kan modellerna verifieras vara sanna genom användning av matematiska bevis.

Många modeller är baserade på idealiska situationer som inte existerar när man arbetar med verkliga data, och som ett resultat kan modellen ge korrekta resultat även om villkoren inte är uppfyllda exakt.

Robust statistik är därför all statistik som ger goda resultat när data hämtas från ett brett spektrum av sannolikhetsfördelningar som till stor del inte påverkas av outliers eller små avvikelser från modellantaganden i en given dataset. Med andra ord är en robust statistik motståndskraftig mot fel i resultaten.

Ett sätt att observera en vanligt förekommande robust statistisk procedur, man behöver inte leta längre än t-procedurer, som använder hypoteser för att bestämma de mest exakta statistiska förutsägelserna.

instagram viewer

Observera T-procedurer

Som ett exempel på robusthet kommer vi att överväga t-procedurer, som inkluderar konfidensintervall för ett populationsmedelvärde med okänd befolkningsstandardavvikelse samt hypotesundersökningar om populationens medelvärde.

Användningen av t-procedurer förutsätter följande:

Uppsättningen av data som vi arbetar med är en enkelt slumpmässigt prov av populationen.
Befolkningen som vi har tagit ur urvalet distribueras normalt.

I praktiken med verkliga exempel har statistiker sällan en befolkning som normalt är fördelad, så frågan blir istället: "Hur robusta är våra t-förfaranden?”

I allmänhet är villkoret att vi har ett enkelt slumpmässigt urval viktigare än villkoret att vi har tagit prov från en normalt fördelad population; orsaken till detta är att den centrala gränssatsen säkerställer en provtagningsfördelning som är ungefär normal - ju större vår provstorlek, desto närmare är provtagningsfördelningen för provmedlet att vara vanligt.

Hur T-procedurer fungerar som robust statistik

Så robusthet för t-procedurer är beroende av provstorlek och fördelning av vårt prov. Överväganden för detta inkluderar:

Om provstorleken är stor, vilket betyder att vi har 40 eller fler observationer, då t-procedurer kan användas även med distribuerade fördelningar.
Om provstorleken är mellan 15 och 40 kan vi använda t-procedurer för någon formad distribution, såvida det inte finns utskott eller en hög grad av skevhet.
Om provstorleken är mindre än 15 kan vi använda t- procedurer för data som inte har några utläsare, en enda topp och är nästan symmetriska.

I de flesta fall har robusthet fastställts genom tekniskt arbete i matematisk statistik, och, lyckligtvis behöver vi inte nödvändigtvis göra dessa avancerade matematiska beräkningar för att kunna ordentligt använda dem; vi behöver bara förstå vad de övergripande riktlinjerna är för robustheten i vår specifika statistiska metod.

T-procedurer fungerar som robust statistik eftersom de vanligtvis ger goda prestanda per dessa modeller genom att ta hänsyn till provets storlek till grund för tillämpningen av proceduren.