Exempel på en ANOVA-beräkning

En faktoranalys av varians, även känd som ANOVA, ger oss ett sätt att göra flera jämförelser av flera befolkningsmedel. I stället för att göra detta på ett parvis sätt kan vi samtidigt titta på alla de medel som övervägs. För att utföra ett ANOVA-test, måste vi jämföra två typer av variationer, variationen mellan provmedlet och variationen i vart och ett av våra prover.

Vi kombinerar all denna variation i en enda statistik, kallad F statistik eftersom den använder F-distributionen. Vi gör detta genom att dela variationen mellan proverna med variationen i varje prov. Sättet att göra detta hanteras vanligtvis av programvara, men det finns ett visst värde att se en sådan beräkning fungera.

Det kommer att bli lätt att gå vilse i det följande. Här är listan över steg som vi kommer att följa i exemplet nedan:

  1. Beräkna provmedlen för vart och ett av våra prover samt medelvärdet för alla provdata.
  2. Beräkna summan av felkvadrater. Här inom varje prov kvadrerar vi avvikelsen för varje datavärde från provmedlet. Summan av alla kvadratiska avvikelser är summan av felkvadrater, förkortad SSE.
  3. Beräkna summan av rutorna för behandling. Vi kvadrerar avvikelsen för varje provmedelvärde från det totala medelvärdet. Summan av alla dessa kvadratiska avvikelser multipliceras med ett mindre än antalet prover vi har. Detta antal är summan av kvadrater av behandling, förkortat SST.
  4. Beräkna graderna av frihet. Det totala antalet frihetsgrader är en mindre än det totala antalet datapunkter i vårt prov, eller n - 1. Antalet grader av behandlingsfrihet är en mindre än antalet använda prover, eller m - 1. Antalet grader av felfrihet är det totala antalet datapunkter minus antalet sampel, eller n - m.
  5. Beräkna medelkvadratfelet. Detta betecknas MSE = SSE / (n - m).
  6. Beräkna medelkvadratet för behandling. Detta betecknas MST = SST /m - '1.
  7. Beräkna F statistisk. Detta är förhållandet mellan de två medelkvadraten som vi beräknade. Så F = MST / MSE.

Programvara gör allt detta ganska enkelt, men det är bra att veta vad som händer bakom kulisserna. I det följande utarbetar vi ett exempel på ANOVA enligt stegen som anges ovan.

Data och provmedel

Anta att vi har fyra oberoende populationer som uppfyller villkoren för enfaktor ANOVA. Vi vill testa nollhypotesen H0: μ1 = μ2 = μ3 = μ4. För detta exempel kommer vi att använda ett prov med storlek tre från var och en av de populationer som studeras. Uppgifterna från våra prover är:

  • Prov från population nr 1: 12, 9, 12. Detta har ett urval av 11.
  • Prov från population nr 2: 7, 10, 13. Detta har ett urval av medelvärde 10.
  • Prov från population nr 3: 5, 8, 11. Detta har ett urval av medelvärde 8.
  • Prov från population nr 4: 5, 8, 8. Detta har ett urval av 7.

Medelvärdet för alla uppgifter är 9.

Summan av kvadrater av fel

Vi beräknar nu summan av de kvadratiska avvikelserna från varje provmedelvärde. Detta kallas summan av felkvadrater.

  • För urvalet från population nr 1: (12 - 11)2 + (9- 11)2 +(12 - 11)2 = 6
  • För provet från population nr 2: (7 - 10)2 + (10- 10)2 +(13 - 10)2 = 18
  • För provet från population nr 3: (5 - 8)2 + (8 - 8)2 +(11 - 8)2 = 18
  • För urvalet från population nr 4: (5 - 7)2 + (8 - 7)2 +(8 - 7)2 = 6.

Vi lägger sedan till alla dessa summan av kvadratiska avvikelser och erhåller 6 + 18 + 18 + 6 = 48.

Summan av kvadrater av behandling

Nu beräknar vi summan av rutorna för behandling. Här tittar vi på kvadratavvikelserna för varje provmedelvärde från det totala medelvärdet och multiplicerar detta antal med en mindre än antalet populationer:

3 [(11 - 9)2 + (10 - 9)2 +(8 - 9)2 + (7 - 9)2] = 3 [4 + 1 + 1 + 4] = 30.

Grader av frihet

Innan vi fortsätter till nästa steg behöver vi graderna av frihet. Det finns 12 datavärden och fyra sampel. Således är antalet grader av behandlingsfrihet 4 - 1 = 3. Antalet grader av felfrihet är 12 - 4 = 8.

Medelkvadrater

Vi delar nu vår summa av rutorna med lämpligt antal frihetsgrader för att få medelkvadraterna.

  • Medelkvadratet för behandling är 30/3 = 10.
  • Det genomsnittliga kvadratet för fel är 48/8 = 6.

F-statistiken

Det sista steget i detta är att dela medelkvadratet för behandling med medelkvadratet för fel. Detta är F-statistiken från uppgifterna. Således för vårt exempel F = 10/6 = 5/3 = 1.667.

Värdenstabeller eller programvara kan användas för att bestämma hur troligt det är att få ett värde av F-statistiken så extrem som detta värde av en slump.