Antalet grader av frihet för oberoende för två kategoriska variabler ges med en enkel formel: (r - 1) (c - 1). Här r är antalet rader och c är antalet kolumner i tvåvägstabellen över värdena för den kategoriska variabeln. Läs vidare för att lära dig mer om detta ämne och för att förstå varför den här formeln ger rätt nummer.
Ett steg i processen med många hypoteser är att bestämma antalet frihetsgrader. Detta antal är viktigt eftersom för sannolikhetsfördelningar som involverar en familj av fördelningar, såsom chi-square distribution, antalet frihetsgrader pekar på den exakta fördelningen från familjen som vi bör använda i vårt hypotestest.
Grader av frihet representerar antalet fria val som vi kan göra i en given situation. Ett av hypotestesterna som kräver att vi bestämmer graden av frihet är chi-square testet för oberoende för två kategoriska variabler.
Chi-square-testet för oberoende kräver att vi konstruerar ett tvåvägstabell, även känt som ett beredskapstabell. Denna typ av bord har r rader och c kolumner som representerar r nivåer för en kategorisk variabel och c nivåer för den andra kategoriska variabeln. Således, om vi inte räknar raden och kolumnen där vi registrerar totaler, finns det totalt rc celler i tvåvägstabellen.
Chi-square-testet för oberoende gör att vi kan testa hypotesen att de kategoriska variablerna är oberoende av varandra. Som vi nämnde ovan, r rader och c kolumner i tabellen ger oss (r - 1) (c - 1) grader av frihet. Men det är kanske inte direkt klart varför det här är rätt antal frihetsgrader.
För att se varför (r - 1) (c - 1) är rätt nummer, vi kommer att undersöka denna situation mer detaljerat. Anta att vi känner till de marginella totalen för var och en av nivåerna i våra kategoriska variabler. Med andra ord, vi vet summan för varje rad och summan för varje kolumn. För den första raden finns det c kolumner i vårt bord, så det finns c celler. När vi väl vet värdena på alla utom en av dessa celler, då eftersom vi vet summan av alla cellerna är det ett enkelt algebraproblem att bestämma värdet på den återstående cellen. Om vi fyller i dessa celler i vårt bord, kunde vi gå in c - 1 av dem fritt, men sedan bestäms den återstående cellen av summan av raden. Således finns det c - 1 frihetsgrad för den första raden.
Vi fortsätter på detta sätt till nästa rad, och det finns igen c - 1 frihetsgrader. Denna process fortsätter tills vi kommer till den näst sista raden. Var och en av raderna förutom den sista bidrar c - 1 frihetsgrad till det totala. När vi har alla utom den sista raden, eftersom vi känner till kolumnsumman kan vi bestämma alla poster i den sista raden. Detta ger oss r - 1 rader med c - 1 frihetsgrad i var och en av dessa, för totalt (r - 1) (c - 1) grader av frihet.
Vi ser detta med följande exempel. Anta att vi har en tvåvägstabell med två kategoriska variabler. En variabel har tre nivåer och den andra har två. Anta dessutom att vi känner till rad- och kolumnsumman för denna tabell:
Nivå A | Nivå B | Total | |
Nivå 1 | 100 | ||
Nivå 2 | 200 | ||
Nivå 3 | 300 | ||
Total | 200 | 400 | 600 |
Formeln förutspår att det finns (3-1) (2-1) = 2 frihetsgrader. Vi ser detta på följande sätt. Anta att vi fyller i den övre vänstra cellen med siffran 80. Detta kommer automatiskt att bestämma hela den första raden med poster:
Nivå A | Nivå B | Total | |
Nivå 1 | 80 | 20 | 100 |
Nivå 2 | 200 | ||
Nivå 3 | 300 | ||
Total | 200 | 400 | 600 |
Om vi nu vet att den första posten i den andra raden är 50 fylls resten av tabellen in, eftersom vi vet summan av varje rad och kolumn:
Nivå A | Nivå B | Total | |
Nivå 1 | 80 | 20 | 100 |
Nivå 2 | 50 | 150 | 200 |
Nivå 3 | 70 | 230 | 300 |
Total | 200 | 400 | 600 |
Tabellen är helt fylld, men vi hade bara två fria val. När dessa värden var kända bestämdes resten av tabellen helt.
Även om vi vanligtvis inte behöver veta varför det finns så många grader av frihet, är det bra att veta att vi verkligen bara tillämpar begreppet frihetsgrader i en ny situation.