Chi-square goodness of fit test är en användbar för att jämföra en teoretisk modell med observerade data. Detta test är en typ av det mer allmänna chi-square-testet. Som med alla ämnen i matematik eller statistik kan det vara till hjälp att arbeta igenom ett exempel för att förstå vad som händer, genom ett exempel på chi-square goodness of fit test.
Tänk på ett standardpaket med mjölkchoklad M & Ms. Det finns sex olika färger: röd, orange, gul, grön, blå och brun. Anta att vi är nyfiken på fördelningen av dessa färger och frågar, förekommer alla sex färger i lika stor andel? Detta är den typ av fråga som kan besvaras med ett passande test.
Vi börjar med att notera inställningen och varför passformstestens godhet är lämplig. Vår färgvariabel är kategorisk. Det finns sex nivåer av denna variabel, motsvarande de sex färger som är möjliga. Vi antar att M & M: erna vi räknar kommer att vara ett enkelt slumpmässigt urval från populationen av alla M & M: er.
De noll- och alternativa hypoteserna för vårt goda fit-test återspeglar antagandet som vi gör om befolkningen. Eftersom vi testar om färgerna förekommer i lika stora proportioner, kommer vår nollhypotes att vara att alla färger förekommer i samma proportion. Mer formellt om p1 är befolkningsandelen av röda godisar, p2 är befolkningsandelen av orange godis, och så vidare, då är nollhypotesen den p1 = p2 = ... = p6 = 1/6.
Den alternativa hypotesen är att minst en av befolkningsförhållandena inte är lika med 1/6.
Det faktiska antalet är antalet godisar för var och en av de sex färgerna. Det förväntade antalet avser vad vi skulle förvänta oss om nollhypotesen var sann. Vi låter n vara storleken på vårt prov. Det förväntade antalet röda godisar är p1 n eller n/ 6. För detta exempel är det förväntade antalet godisar för var och en av de sex färgerna helt enkelt n gånger pjag, eller n/ 6.
Vi kommer nu att beräkna en chi-square-statistik för ett specifikt exempel. Anta att vi har ett enkelt slumpmässigt urval av 600 M&M godisar med följande distribution:
Om nollhypotesen var sant, skulle de förväntade räkningarna för var och en av dessa färger vara (1/6) x 600 = 100. Vi använder detta nu i vår beräkning av chi-kvadratstatistiken.
Vi beräknar bidraget till vår statistik utifrån var och en av färgerna. Var och en har formen (Faktisk - förväntad)2/ Förväntad .:
Vi sammanför sedan alla dessa bidrag och bestämmer att vår chi-square-statistik är 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.
Antalet frihetsgrader för en bra passform är helt enkelt en mindre än antalet nivåer i vår variabel. Eftersom det fanns sex färger har vi 6 - 1 = 5 frihetsgrader.
Chi-square-statistiken på 235,42 som vi beräknade motsvarar en viss plats på en chi-square-fördelning med fem frihetsgrader. Vi behöver nu ett p-värde för att bestämma sannolikheten för att erhålla en teststatistik minst lika extrem som 235.42 medan vi antar att nollhypotesen är sann.
Microsofts Excel kan användas för denna beräkning. Vi finner att vår teststatistik med fem frihetsgrader har ett p-värde på 7,29 x 10-49. Detta är ett extremt litet p-värde.
Vi fattar vårt beslut om att avvisa nollhypotesen baserat på storleken på p-värdet. Eftersom vi har ett mycket små p-värde, avvisar vi nollhypotesen. Vi drar slutsatsen att M & Ms inte är jämnt fördelade mellan de sex olika färgerna. En uppföljningsanalys kan användas för att bestämma ett konfidensintervall för befolkningsandelen för en viss färg.