Varians och standardavvikelse

När vi mäter variationen i en uppsättning data finns det två nära kopplade statistik relaterade till detta: variansen och standardavvikelsen, som båda indikerar hur spridd datavärden är och involverar liknande steg i deras beräkning. Den största skillnaden mellan dessa två statistiska analyser är emellertid att standardavvikelsen är kvadratroten av variansen.

För att förstå skillnaderna mellan dessa två observationer av statistisk spridning måste man först förstå vad var och en representerar: Varians representerar alla datapunkter i en uppsättning och beräknas genom att medelvärdet av kvadratavvikelsen för varje medelvärde är medan standardavvikelsen är ett mått på spridningen runt medelvärdet när den centrala tendensen beräknas via medelvärdet.

Som ett resultat kan variansen uttryckas som den genomsnittliga kvadratiska avvikelsen för värdena från medlen eller [kvadratavvikelsen för medlen] dividerat med antalet observationer och standardavvikelsen kan uttryckas som varvets kvadratrot.

Konstruktion av variation

För att fullt ut förstå skillnaden mellan denna statistik måste vi förstå beräkningen av variansen. Stegen för att beräkna provvariansen är följande:

  1. Beräkna provmedlet för data.
  2. Hitta skillnaden mellan medelvärdet och var och en av datavärdena.
  3. Fyrkantar dessa skillnader.
  4. Lägg till de kvadratiska skillnaderna tillsammans.
  5. Dela denna summa med en mindre än det totala antalet datavärden.

Skälen till vart och ett av dessa steg är följande:

  1. Medelvärdet ger dataens mittpunkt eller medelvärde.
  2. Skillnaderna från medelvärdet hjälper till att bestämma avvikelserna från det genomsnittet. Datavärden som är långt ifrån medelvärdet ger en större avvikelse än de som ligger nära medelvärdet.
  3. Skillnaderna är kvadratiska, eftersom om skillnaderna läggs till utan att vara kvadratiska kommer summan att vara noll.
  4. Tillägget av dessa kvadratiska avvikelser ger en mätning av total avvikelse.
  5. Uppdelningen med en mindre än provstorleken ger ett slags medelavvikelse. Detta avvisar effekten av att många datapunkter vardera bidrar till att mäta spridningen.

Som tidigare nämnts beräknas standardavvikelsen helt enkelt genom att hitta kvadratroten till detta resultat, vilket ger den absoluta avvikelsenorm oavsett ett totalt antal datavärden.

Varians och standardavvikelse

När vi överväger variansen inser vi att det finns en stor nackdel med att använda den. När vi följer stegen i beräkningen av variansen visar detta att variansen mäts i termer av kvadratiska enheter eftersom vi lägger ihop kvadratdifferenser i vår beräkning. Till exempel, om våra provdata mäts i meter, skulle enheterna för en varians anges i kvadratmeter.

För att standardisera vårt mått på spridning måste vi ta varianternas kvadratrot. Detta eliminerar problemet med kvadratiska enheter och ger oss ett mått på spridningen som har samma enheter som vårt ursprungliga prov.

Det finns många formler i matematisk statistik som ser snyggare ut när vi anger dem i form av varians istället för standardavvikelse.