Förtroendeintervaller är en del av slutsatsstatistik. Grundtanken bakom detta ämne är att uppskatta värdet på en okänd befolkning parameter genom att använda ett statistiskt prov. Vi kan inte bara uppskatta värdet på en parameter, utan vi kan också anpassa våra metoder för att uppskatta skillnaden mellan två relaterade parametrar. Vi kanske till exempel vill hitta skillnaden i procentandelen av den amerikanska manliga röstbefolkningen som stöder en viss lagstiftning jämfört med den kvinnliga rösterna.
Vi kommer att se hur man gör denna typ av beräkning genom att konstruera ett konfidensintervall för skillnaden mellan två befolkningsförhållanden. I processen kommer vi att undersöka en del av teorin bakom denna beräkning. Vi kommer att se några likheter i hur vi konstruerar en konfidensintervall för en enda befolkningsandel liksom en konfidensintervall för skillnaden mellan två populationsmedel.
Allmänt
Innan vi tittar på den specifika formeln som vi kommer att använda, låt oss överväga den övergripande ramen som denna typ av konfidensintervall passar in. Formen för den typ av konfidensintervall som vi kommer att titta på ges med följande formel:
Uppskatta +/- Felmarginal
Många konfidensintervall är av denna typ. Det finns två siffror som vi måste beräkna. Den första av dessa värden är uppskattningen för parametern. Det andra värdet är felmarginen. Denna felmarginal står för det faktum att vi har en uppskattning. Konfidensintervallet ger oss ett antal möjliga värden för vår okända parameter.
Betingelser
Vi bör se till att alla villkor är uppfyllda innan vi gör någon beräkning. För att hitta ett konfidensintervall för skillnaden mellan två befolkningsförhållanden måste vi se till att följande håller:
- Vi har två enkla slumpmässiga prover från stora populationer. Här betyder "stor" att befolkningen är minst 20 gånger större än provets storlek. Provstorlekarna kommer att betecknas med n1 och n2.
- Våra individer har valts oberoende av varandra.
- Det finns minst tio framgångar och tio misslyckanden i vart och ett av våra prover.
Om den sista artikeln i listan inte är nöjd, kan det finnas ett sätt att komma runt detta. Vi kan ändra plus-fyra konfidensintervall konstruktion och få robusta resultat. När vi går framåt antar vi att alla ovanstående villkor har uppfyllts.
Prover och befolkningsandelar
Nu är vi redo att konstruera vårt förtroendeintervall. Vi börjar med uppskattningen för skillnaden mellan våra befolkningsförhållanden. Båda dessa befolkningsförhållanden beräknas med ett urval. Dessa provproportioner är statistik som finns genom att dela antalet framgångar i varje prov och sedan dividera med respektive provstorlek.
Den första befolkningsandelen betecknas med p1. Om antalet framgångar i vårt urval från denna befolkning är k1, då har vi en provandel av k1 / n1.
Vi anger denna statistik med p̂1. Vi läser denna symbol som "s1-som "för att det ser ut som symbolen p1 med hatt på toppen.
På liknande sätt kan vi beräkna en urvalsproportion från vår andra population. Parametern från denna population är p2. Om antalet framgångar i vårt urval från denna befolkning är k2, och vår provandel är p̂2 = k2 / n2.
Dessa två statistik blir den första delen av vårt förtroendeintervall. Uppskattningen av p1 är p̂1. Uppskattningen av p2 är p̂2. Så uppskattningen för skillnaden p1 - p2 är p̂1 - p̂2.
Provtagningsfördelning av skillnaden mellan provproportioner
Nästa måste vi få formeln för felmarginal. För att göra detta kommer vi först att överväga provtagningsfördelning av p̂1 . Detta är en binomial fördelning med sannolikhet för framgång p1 och n1 prövningar. Medelvärdet för denna fördelning är andelen p1. Standardavvikelsen för denna typ av slumpmässig variabel har varians av p1 (1 - p1 )/n1.
Provtagningsfördelningen för p̂2 liknar den för p̂1 . Ändra helt enkelt alla index från 1 till 2 och vi har en binomial fördelning med medelvärdet av p2 och varians av p2 (1 - p2 )/n2.
Vi behöver nu några resultat från matematisk statistik för att bestämma provtagningsfördelningen för p̂1 - p̂2. Medelvärdet för denna distribution är p1 - p2. På grund av det faktum att varianserna sammanfogas ser vi att variansen för provtagningsfördelningen är p1 (1 - p1 )/n1 + p2 (1 - p2 )/n2. Distributionens standardavvikelse är kvadratroten till denna formel.
Det finns ett par justeringar som vi behöver göra. Den första är att formeln för standardavvikelsen för p̂1 - p̂2 använder de okända parametrarna för p1 och p2. Naturligtvis om vi verkligen visste dessa värden, skulle det inte vara ett intressant statistiskt problem alls. Vi skulle inte behöva uppskatta skillnaden mellan p1 och p2.. Istället kunde vi helt enkelt beräkna den exakta skillnaden.
Det här problemet kan åtgärdas genom att beräkna ett standardfel snarare än en standardavvikelse. Allt vi behöver göra är att ersätta befolkningsförhållandena med urvalsproportioner. Standardfel beräknas utifrån statistik istället för parametrar. Ett standardfel är användbart eftersom det effektivt uppskattar en standardavvikelse. Vad detta betyder för oss är att vi inte längre behöver veta värdet på parametrarna p1 och p2. .Eftersom dessa provproportioner är kända ges standardfelet av kvadratroten av följande uttryck:
p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.
Den andra artikeln som vi behöver ta itu med är den speciella formen för vår provtagningsdistribution. Det visar sig att vi kan använda en normalfördelning för att ungefärliga samplingsfördelningen för p̂1 - p̂2. Anledningen till detta är något tekniskt men anges i nästa stycke.
Båda p̂1 och p̂2 ha en samplingsfördelning som är binomial. Var och en av dessa binomialfördelningar kan approximeras ganska bra med en normalfördelning. Således p̂1 - p̂2 är en slumpmässig variabel. Det bildas som en linjär kombination av två slumpmässiga variabler. Var och en av dessa är ungefärliga av en normalfördelning. Därför samplingsfördelningen av p̂1 - p̂2 distribueras också normalt.
Konfidensintervallformel
Vi har nu allt vi behöver för att samla vårt förtroendeintervall. Uppskattningen är (p̂1 - p̂2) och felmarginalen är z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. Värdet som vi anger för z * bestäms av förtroendet C. Vanliga värden för z * är 1,645 för 90% förtroende och 1,96 för 95% förtroende. Dessa värden för z * anger den del av den normala normalfördelningen var exakt C procent av fördelningen är mellan -z * och z *.
Följande formel ger oss ett konfidensintervall för skillnaden mellan två befolkningsförhållanden:
(p1 - p̂2) +/- z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5