Grader av frihet för självständighet i tvåvägstabellen

Antalet grader av frihet för oberoende av två kategoriska variabler ges med en enkel formel: (r - 1)(c - 1). Här r är antalet rader och c är antalet kolumner i tvåvägsbord av värdena för den kategoriska variabeln. Läs vidare för att lära dig mer om detta ämne och för att förstå varför den här formeln ger rätt nummer.

Bakgrund

Ett steg i processen för många hypotestester är bestämningen av antalet frihetsgrader. Detta nummer är viktigt eftersom för sannolikhetsfördelningar som involverar en familj av distributioner, såsom chi-square distribution, antalet grader av frihet pekar på den exakta fördelningen från familjen som vi borde använda i vår hypotes testa.

Grader av frihet representerar antalet fria val som vi kan göra i en given situation. Ett av hypotestesterna som kräver att vi bestämmer graden av frihet är chi-kvadrat test för oberoende för två kategoriska variabler.

Test för självständighet och tvåvägsbord

Chi-square-testet för oberoende kräver att vi konstruerar ett tvåvägstabell, även känt som ett beredskapstabell. Denna typ av bord har

instagram viewer
r rader och c kolumner som representerar r nivåer för en kategorisk variabel och c nivåer för den andra kategoriska variabeln. Således, om vi inte räknar raden och kolumnen där vi registrerar totaler, finns det totalt rc celler i tvåvägstabellen.

Chi-square-testet för oberoende gör att vi kan testa hypotesen att kategorisk variabler är oberoende av varandra. Som vi nämnde ovan, r rader och c kolumner i tabellen ger oss (r - 1)(c - 1) grader av frihet. Men det är kanske inte direkt klart varför det här är rätt antal frihetsgrader.

Antalet frihetsgrader

För att se varför (r - 1)(c - 1) är rätt nummer, vi kommer att undersöka denna situation mer detaljerat. Anta att vi känner till de marginella totalen för var och en av nivåerna i våra kategoriska variabler. Med andra ord, vi vet summan för varje rad och summan för varje kolumn. För den första raden finns det c kolumner i vårt bord, så det finns c celler. När vi väl vet värdena på alla utom en av dessa celler, eftersom vi vet summan av alla celler är det ett enkelt algebraproblem att bestämma värdet på den återstående cellen. Om vi ​​fyller i dessa celler i vårt bord, kunde vi gå in c - 1 av dem fritt, men då bestäms den återstående cellen av summan av raden. Således finns det c - 1 frihetsgrad för den första raden.

Vi fortsätter på detta sätt till nästa rad, och det finns igen c - 1 frihetsgrader. Denna process fortsätter tills vi kommer till den näst sista raden. Var och en av raderna förutom den sista bidrar c - 1 frihetsgrad till det totala. När vi har alla utom den sista raden, eftersom vi känner till kolumnsumman kan vi bestämma alla poster i den sista raden. Detta ger oss r - 1 rader med c - 1 frihetsgrad i var och en av dessa, för totalt (r - 1)(c - 1) grader av frihet.

Exempel

Vi ser detta med följande exempel. Anta att vi har en tvåvägstabell med två kategoriska variabler. En variabel har tre nivåer och den andra har två. Anta dessutom att vi känner till rad- och kolumnsumman för denna tabell:

Nivå A Nivå B Total
Nivå 1 100
Nivå 2 200
Nivå 3 300
Total 200 400 600

Formeln förutspår att det finns (3-1) (2-1) = 2 frihetsgrader. Vi ser detta på följande sätt. Anta att vi fyller i den övre vänstra cellen med numret 80. Detta kommer automatiskt att bestämma hela den första raden med poster:

Nivå A Nivå B Total
Nivå 1 80 20 100
Nivå 2 200
Nivå 3 300
Total 200 400 600

Om vi ​​nu vet att den första posten i den andra raden är 50 fylls resten av tabellen in, eftersom vi vet summan av varje rad och kolumn:

Nivå A Nivå B Total
Nivå 1 80 20 100
Nivå 2 50 150 200
Nivå 3 70 230 300
Total 200 400 600

Tabellen är helt fylld, men vi hade bara två fria val. När dessa värden var kända bestämdes resten av tabellen helt.

Även om vi vanligtvis inte behöver veta varför det finns så många grader av frihet, är det bra att veta att vi verkligen bara tillämpar begreppet frihetsgrader i en ny situation.

instagram story viewer