De chi-square goodness of fit test är användbart att jämföra a teoretisk modell till observerade data. Detta test är en typ av det mer allmänna chi-square-testet. Som med alla ämnen i matematik eller statistik kan det vara till hjälp att arbeta igenom ett exempel för att förstå vad som händer, genom ett exempel på chi-square goodness of fit test.
Tänk på ett standardpaket med mjölkchoklad M & Ms. Det finns sex olika färger: röd, orange, gul, grön, blå och brun. Anta att vi är nyfiken på fördelningen av dessa färger och frågar, förekommer alla sex färger i lika stor andel? Detta är den typ av fråga som kan besvaras med ett passande test.
Miljö
Vi börjar med att notera inställningen och varför passformstestens godhet är lämplig. Vår färgvariabel är kategorisk. Det finns sex nivåer av denna variabel, motsvarande de sex färger som är möjliga. Vi antar att M & M: erna vi räknar kommer att vara ett enkelt slumpmässigt urval från populationen av alla M & M: er.
Noll och alternativa hypoteser
De
null och alternativa hypoteser för vårt goda fit-test reflekterar antagandet vi gör om befolkningen. Eftersom vi testar om färgerna förekommer i lika stora proportioner, kommer vår nollhypotes att vara att alla färger förekommer i samma proportion. Mer formellt om p1 är befolkningsandelen röda godisar, p2 är befolkningsandelen av orange godis, och så vidare, då är nollhypotesen den p1 = p2 =... = p6 = 1/6.Den alternativa hypotesen är att minst en av befolkningsförhållandena inte är lika med 1/6.
Faktiska och förväntade räkningar
Det faktiska antalet är antalet godisar för var och en av de sex färgerna. Det förväntade antalet avser vad vi skulle förvänta oss om nollhypotesen var sann. Vi låter n vara storleken på vårt prov. Det förväntade antalet röda godisar är p1 n eller n/6. För detta exempel är det förväntade antalet godisar för var och en av de sex färgerna helt enkelt n gånger pjag, eller n/6.
Chi-square statistik för godhet i form
Vi kommer nu att beräkna en chi-square-statistik för ett specifikt exempel. Anta att vi har ett enkelt slumpmässigt urval av 600 M&M godisar med följande distribution:
- 212 av godisarna är blå.
- 147 av godisarna är orange.
- 103 av godisarna är gröna.
- 50 av godisarna är röda.
- 46 av godisarna är gula.
- 42 av godisarna är bruna.
Om nollhypotesen var sann, skulle de förväntade räkningarna för var och en av dessa färger vara (1/6) x 600 = 100. Vi använder det nu i vår beräkning av chi-kvadratstatistiken.
Vi beräknar bidraget till vår statistik utifrån var och en av färgerna. Var och en har formen (Faktisk - förväntad)2/Expected.:
- För blå har vi (212 - 100)2/100 = 125.44
- För orange har vi (147 - 100)2/100 = 22.09
- För grönt har vi (103 - 100)2/100 = 0.09
- För rött har vi (50 - 100)2/100 = 25
- För gult har vi (46 - 100)2/100 = 29.16
- För brun har vi (42 - 100)2/100 = 33.64
Vi sammanför sedan alla dessa bidrag och bestämmer att vår chi-square-statistik är 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.
Grader av frihet
Antalet grader av frihet för en god passform är helt enkelt en mindre än antalet nivåer i vår variabel. Eftersom det fanns sex färger har vi 6 - 1 = 5 frihetsgrader.
Chi-kvadratisk tabell och P-värde
Chi-square-statistiken på 235,42 som vi beräknade motsvarar en viss plats på en chi-square-fördelning med fem frihetsgrader. Vi behöver nu en p-värde, för att bestämma sannolikheten för att erhålla en teststatistik minst så extrem som 235,42 medan man antar att nollhypotesen är sann.
Microsofts Excel kan användas för denna beräkning. Vi finner att vår teststatistik med fem frihetsgrader har ett p-värde på 7,29 x 10-49. Detta är ett extremt litet p-värde.
Beslutsregel
Vi fattar vårt beslut om att avvisa nollhypotesen baserad på storleken på p-värdet. Eftersom vi har ett mycket små p-värde, avvisar vi nollhypotesen. Vi drar slutsatsen att M & Ms inte är jämnt fördelade mellan de sex olika färgerna. En uppföljningsanalys skulle kunna användas för att bestämma ett konfidensintervall för populationens andel av en viss färg.