Befolkningsvariansen ger en indikation på hur man sprider en datauppsättning är. Tyvärr är det vanligtvis omöjligt att veta exakt vad denna populationsparameter är. För att kompensera för vår brist på kunskap använder vi ett ämne från inferentialstatistik som kallas konfidensintervall. Vi kommer att se ett exempel på hur man beräknar ett konfidensintervall för en befolkningsvarians.
Formeln för (1 - α) konfidensintervall om befolkningsvariansen. Ges av följande sträng av ojämlikheter:
[(n - 1)s2] / B < σ2 < [ (n - 1)s2] / EN.
Här n är provstorleken, s2 är provvariansen. Numret EN är punkten för chi-square distributionen med n -1 frihetsgrader där exakt α / 2 av området under kurvan är till vänster om EN. På liknande sätt antalet B är punkten för samma chi-kvadratfördelning med exakt α / 2 av området under kurvan till höger om B.
Vi börjar med en datauppsättning med 10 värden. Denna uppsättning datavärden erhölls med ett enkelt slumpmässigt prov:
97, 75, 124, 106, 120, 131, 94, 97,96, 102
Vissa undersökande dataanalyser skulle behövas för att visa att det inte finns några outliers. Genom att konstruera en stam- och bladdiagram ser vi att denna information troligen kommer från en distribution som ungefär normalt distribueras. Det betyder att vi kan fortsätta med att hitta ett 95% konfidensintervall för befolkningsvariansen.
Vi måste uppskatta befolkningsvariansen med provvariansen, betecknad med s2. Så vi börjar med att beräkna denna statistik. Vi beräknar i huvudsak summan av de kvadratiska avvikelserna från medelvärdet. Istället för att dela denna summa med n vi delar det med n - 1.
Vi finner att provmedlet är 104,2. Med hjälp av detta har vi summan av kvadratiska avvikelser från medelvärdet som ges av:
(97 - 104,2)2 + (75 - 104,3)2 +... + (96 - 104,2)2 + (102 - 104,2)2 = 2495,6
Vi delar denna summa med 10 - 1 = 9 för att få en provvarians på 277.
Vi vänder oss nu till vår chi-square distribution. Eftersom vi har 10 datavärden har vi 9 frihetsgrader. Eftersom vi vill ha de mittersta 95% av vår distribution behöver vi 2,5% i vart och ett av de två svansarna. Vi konsulterar ett chi-square bord eller programvara och ser att tabellvärdena 2.7004 och 19.023 omsluter 95% av distributionens area. Dessa siffror är EN och B, respektive.
Vi har nu allt vi behöver, och vi är redo att samla in vårt förtroendeintervall. Formeln för vänster slutpunkt är [(n - 1)s2] / B. Detta betyder att vår vänstra slutpunkt är:
(9 x 277) /19.023 = 133
Rätt slutpunkt hittas genom att ersätta B med EN:
(9 x 277) / 2,7004 = 923
Och därför är vi 95% säkra på att befolkningsvariansen ligger mellan 133 och 923.
Naturligtvis, eftersom standardavvikelsen är kvadratroten av variationen, kan denna metod användas för att konstruera ett konfidensintervall för populationsstandardavvikelsen. Allt vi behöver göra är att ta kvadratiska rötter till slutpunkterna. Resultatet skulle vara 95% konfidensintervall för standardavvikelsen.