Vad är ANOVA?

Många gånger när vi studerar en grupp jämför vi verkligen två populationer. Beroende på parametern för denna grupp som vi är intresserade av och villkoren vi arbetar med finns det flera tekniker tillgängliga. Statistiska inferensförfaranden som avser jämförelse av två populationer kan vanligtvis inte tillämpas på tre eller flera populationer. För att studera mer än två populationer på en gång behöver vi olika typer av statistiska verktyg. Variansanalys, eller ANOVA, är en teknik från statistisk interferens som gör att vi kan hantera flera populationer.

Jämförelse av medel

För att se vilka problem som uppstår och varför vi behöver ANOVA kommer vi att överväga ett exempel. Anta att vi försöker bestämma om medelvikterna för gröna, röda, blå och orange M&M-godis skiljer sig från varandra. Vi anger medelvikterna för var och en av dessa populationer, μ1, μ2, μ3 μ4 respektive. Vi kan använda lämpligt hypotestest flera gånger och test C (4,2) eller sex olika nollhypoteser:

  • H0: μ1 = μ2 för att kontrollera om den genomsnittliga vikten av befolkningen i de röda godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de blå godisarna.
  • H0: μ2 = μ3 för att kontrollera om medelvikten för befolkningen i de blå godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de gröna godisarna.
  • H0: μ3 = μ4 för att kontrollera om den genomsnittliga vikten för befolkningen i de gröna godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de orange godisarna.
  • H0: μ4 = μ1 för att kontrollera om medelvikten för befolkningen i de orange godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de röda godisarna.
  • H0: μ1 = μ3 för att kontrollera om den genomsnittliga vikten av befolkningen i de röda godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de gröna godisarna.
  • H0: μ2 = μ4 för att kontrollera om den genomsnittliga vikten för befolkningen i de blå godisarna är annorlunda än den genomsnittliga vikten av befolkningen i de orange godisarna.

Det finns många problem med den här typen av analys. Vi kommer att ha sex p-värden. Även om vi kan testa var och en på 95% nivå av förtroende, är vårt förtroende för den totala processen mindre än detta eftersom sannolikheterna multiplicerar: 0,95 x 0,95 x 0,95 x 0,95 x 0,95 x 0,95 är ungefär 0,74, eller 74% förtroende. Således har sannolikheten för ett typ I-fel ökat.

På en mer grundläggande nivå kan vi inte jämföra dessa fyra parametrar som helhet genom att jämföra dem två åt gången. Medlet för de röda och blå M & M: erna kan vara signifikanta, med den genomsnittliga vikten av röd är relativt större än den genomsnittliga vikten för de blå. Men när vi överväger medelvikterna för alla fyra godisslag, kan det hända att det inte finns någon väsentlig skillnad.

Variansanalys

För att hantera situationer där vi behöver göra flera jämförelser använder vi ANOVA. Detta test tillåter oss att ta hänsyn till parametrarna för flera populationer på en gång utan att komma in på några av de problem som står inför oss genom att utföra hypotest på två parametrar åt gången.

För att utföra ANOVA med M&M-exemplet ovan skulle vi testa nollhypotesen H0: μ1 = μ2 = μ3= μ4. Detta säger att det inte finns någon skillnad mellan medelvikterna för de röda, blå och gröna M & Ms. Den alternativa hypotesen är att det finns en viss skillnad mellan medelvikterna för de röda, blå, gröna och orange M & Ms. Den här hypotesen är verkligen en kombination av flera uttalanden Hen:

  • Medelvikten för populationen av röda godisar är inte lika med medelvikten för befolkningen av blå godisar, ELLER
  • Medelvikten för befolkningen av blå godisar är inte lika med medelvikten för befolkningen av gröna godisar, ELLER
  • Medelvikten för befolkningen av gröna godisar är inte lika med medelvikten för befolkningen av orange godisar, ELLER
  • Medelvikten för beståndet av gröna godisar är inte lika med medelvikten för populationen av röda godisar, ELLER
  • Medelvikten för befolkningen av blå godisar är inte lika med medelvikten för befolkningen av orange godis, ELLER
  • Medelvikten för befolkningen av blå godisar är inte lika med medelvikten för populationen av röda godisar.

I detta speciella fall, för att få vårt p-värde, skulle vi använda en sannolikhetsfördelning känd som F-distributionen. Beräkningar som involverar ANOVA F-testet kan göras för hand, men beräknas vanligtvis med statistisk programvara.

Flera jämförelser

Det som skiljer ANOVA från andra statistiska tekniker är att den används för att göra flera jämförelser. Detta är vanligt i statistiken, eftersom det är många gånger vi vill jämföra mer än bara två grupper. Vanligtvis antyder ett övergripande test att det finns någon slags skillnad mellan parametrarna vi studerar. Vi följer sedan detta test med någon annan analys för att avgöra vilken parameter som skiljer sig.