Många gånger när vi studerar en grupp jämför vi verkligen två populationer. Beroende på parameter av den här gruppen vi är intresserade av och villkoren vi arbetar med finns det flera tekniker tillgängliga. Statistisk slutledning förfaranden som avser jämförelse av två populationer kan vanligtvis inte tillämpas på tre eller flera populationer. För att studera mer än två populationer på en gång behöver vi olika typer av statistiska verktyg. Variansanalys, eller ANOVA, är en teknik från statistisk störning som gör att vi kan hantera flera populationer.
Jämförelse av medel
För att se vilka problem som uppstår och varför vi behöver ANOVA kommer vi att överväga ett exempel. Anta att vi försöker avgöra om betyda vikter av gröna, röda, blå och orange M&M-godisar skiljer sig från varandra. Vi anger medelvikterna för var och en av dessa populationer, μ1, μ2, μ3 μ4 respektive. Vi kan använda det lämpliga hypotestest flera gånger och testa C (4,2), eller sex olika nollhypoteser:
- H0: μ1 = μ2 för att kontrollera om den genomsnittliga vikten av befolkningen i de röda godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de blå godisarna.
- H0: μ2 = μ3 för att kontrollera om medelvikten för befolkningen i de blå godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de gröna godisarna.
- H0: μ3 = μ4 för att kontrollera om den genomsnittliga vikten för befolkningen i de gröna godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de orange godisarna.
- H0: μ4 = μ1 för att kontrollera om medelvikten för befolkningen i de orange godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de röda godisarna.
- H0: μ1 = μ3 för att kontrollera om den genomsnittliga vikten av befolkningen i de röda godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de gröna godisarna.
- H0: μ2 = μ4 för att kontrollera om den genomsnittliga vikten för befolkningen i de blå godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de orange godisarna.
Det finns många problem med den här typen av analys. Vi kommer att ha sex p-värdena. Även om vi kan testa var och en på 95% nivå av förtroende, är vårt förtroende för den övergripande processen mindre än detta eftersom sannolikheterna multiplicerar: 0,95 x 0,95 x 0,95 x 0,95 x 0,95 x 0,95 är ungefär 0,74, eller en 74% nivå av förtroende. Således har sannolikheten för ett typ I-fel ökat.
På en mer grundläggande nivå kan vi inte jämföra dessa fyra parametrar som helhet genom att jämföra dem två åt gången. Medlet för de röda och blå M & M: erna kan vara signifikanta, med den genomsnittliga vikten av röd är relativt större än den genomsnittliga vikten för de blå. Men när vi överväger medelvikterna för alla fyra godisslag, kan det hända att det inte finns någon väsentlig skillnad.
Variansanalys
För att hantera situationer där vi behöver göra flera jämförelser använder vi ANOVA. Detta test gör det möjligt för oss att överväga parametrarna för flera populationer på en gång utan att komma in på några av de problem som vi står inför genomföra hypotest på två parametrar åt gången.
För att utföra ANOVA med M&M-exemplet ovan skulle vi testa nollhypotesen H0:μ1 = μ2 = μ3= μ4. Detta säger att det inte finns någon skillnad mellan medelvikterna för de röda, blå och gröna M & Ms. Den alternativa hypotesen är att det finns en viss skillnad mellan medelvikterna för de röda, blå, gröna och orange M & Ms. Den här hypotesen är verkligen en kombination av flera uttalanden Hen:
- Medelvikten för populationen av röda godisar är inte lika med medelvikten för befolkningen av blå godisar, ELLER
- Medelvikten för befolkningen av blå godisar är inte lika med medelvikten för befolkningen av gröna godisar, ELLER
- Medelvikten för befolkningen av gröna godisar är inte lika med medelvikten för befolkningen av orange godisar, ELLER
- Medelvikten för beståndet av gröna godisar är inte lika med medelvikten för populationen av röda godisar, ELLER
- Medelvikten för befolkningen av blå godisar är inte lika med medelvikten för befolkningen av orange godis, ELLER
- Medelvikten för befolkningen av blå godisar är inte lika med medelvikten för populationen av röda godisar.
I det här fallet skulle vi använda a för att få vårt p-värde sannolikhetsfördelning känd som F-fördelning. Beräkningar som involverar ANOVA F-testet kan göras för hand, men beräknas vanligtvis med statistisk programvara.
Flera jämförelser
Det som skiljer ANOVA från andra statistiska tekniker är att den används för att göra flera jämförelser. Detta är vanligt i statistiken, eftersom det är många gånger vi vill jämföra mer än bara två grupper. Vanligtvis antyder ett övergripande test att det finns någon slags skillnad mellan parametrarna vi studerar. Vi följer sedan detta test med någon annan analys för att avgöra vilken parameter som skiljer sig.