Exempel på ett Chi-Square Goodness of Fit Test

Chi-square goodness of fit test är en användbar för att jämföra en teoretisk modell med observerade data. Detta test är en typ av det mer allmänna chi-square-testet. Som med alla ämnen i matematik eller statistik kan det vara till hjälp att arbeta igenom ett exempel för att förstå vad som händer, genom ett exempel på chi-square goodness of fit test.

Tänk på ett standardpaket med mjölkchoklad M & Ms. Det finns sex olika färger: röd, orange, gul, grön, blå och brun. Anta att vi är nyfiken på fördelningen av dessa färger och frågar, förekommer alla sex färger i lika stor andel? Detta är den typ av fråga som kan besvaras med ett passande test.

Miljö

Vi börjar med att notera inställningen och varför passformstestens godhet är lämplig. Vår färgvariabel är kategorisk. Det finns sex nivåer av denna variabel, motsvarande de sex färger som är möjliga. Vi antar att M & M: erna vi räknar kommer att vara ett enkelt slumpmässigt urval från populationen av alla M & M: er.

Noll och alternativa hypoteser

De noll- och alternativa hypoteserna för vårt goda fit-test återspeglar antagandet som vi gör om befolkningen. Eftersom vi testar om färgerna förekommer i lika stora proportioner, kommer vår nollhypotes att vara att alla färger förekommer i samma proportion. Mer formellt om p1 är befolkningsandelen av röda godisar, p2 är befolkningsandelen av orange godis, och så vidare, då är nollhypotesen den p1 = p2 = ... = p6 = 1/6.

Den alternativa hypotesen är att minst en av befolkningsförhållandena inte är lika med 1/6.

Faktiska och förväntade räkningar

Det faktiska antalet är antalet godisar för var och en av de sex färgerna. Det förväntade antalet avser vad vi skulle förvänta oss om nollhypotesen var sann. Vi låter n vara storleken på vårt prov. Det förväntade antalet röda godisar är p1 n eller n/ 6. För detta exempel är det förväntade antalet godisar för var och en av de sex färgerna helt enkelt n gånger pjag, eller n/ 6.

Chi-square statistik för godhet i form

Vi kommer nu att beräkna en chi-square-statistik för ett specifikt exempel. Anta att vi har ett enkelt slumpmässigt urval av 600 M&M godisar med följande distribution:

  • 212 av godisarna är blå.
  • 147 av godisarna är orange.
  • 103 av godisarna är gröna.
  • 50 av godisarna är röda.
  • 46 av godisarna är gula.
  • 42 av godisarna är bruna.

Om nollhypotesen var sant, skulle de förväntade räkningarna för var och en av dessa färger vara (1/6) x 600 = 100. Vi använder detta nu i vår beräkning av chi-kvadratstatistiken.

Vi beräknar bidraget till vår statistik utifrån var och en av färgerna. Var och en har formen (Faktisk - förväntad)2/ Förväntad .:

  • För blå har vi (212 - 100)2/ 100 = 125,44
  • För orange har vi (147 - 100)2/ 100 = 22,09
  • För grönt har vi (103 - 100)2/ 100 = 0,09
  • För rött har vi (50 - 100)2/ 100 = 25
  • För gult har vi (46 - 100)2/ 100 = 29,16
  • För brun har vi (42 - 100)2/ 100 = 33,64

Vi sammanför sedan alla dessa bidrag och bestämmer att vår chi-square-statistik är 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.

Grader av frihet

Antalet frihetsgrader för en bra passform är helt enkelt en mindre än antalet nivåer i vår variabel. Eftersom det fanns sex färger har vi 6 - 1 = 5 frihetsgrader.

Chi-kvadratisk tabell och P-värde

Chi-square-statistiken på 235,42 som vi beräknade motsvarar en viss plats på en chi-square-fördelning med fem frihetsgrader. Vi behöver nu ett p-värde för att bestämma sannolikheten för att erhålla en teststatistik minst lika extrem som 235.42 medan vi antar att nollhypotesen är sann.

Microsofts Excel kan användas för denna beräkning. Vi finner att vår teststatistik med fem frihetsgrader har ett p-värde på 7,29 x 10-49. Detta är ett extremt litet p-värde.

Beslutsregel

Vi fattar vårt beslut om att avvisa nollhypotesen baserat på storleken på p-värdet. Eftersom vi har ett mycket små p-värde, avvisar vi nollhypotesen. Vi drar slutsatsen att M & Ms inte är jämnt fördelade mellan de sex olika färgerna. En uppföljningsanalys kan användas för att bestämma ett konfidensintervall för befolkningsandelen för en viss färg.