Beräkningen av en provvarians eller standardavvikelse anges vanligen som en bråkdel. Räknaren för denna bråkdel innefattar en summa av kvadratiska avvikelser från medelvärdet. I statistik är formeln för denna totala summa kvadrater
Σ (xjag - X)2
Här refererar symbolen x̄ till genomsnittsmedlet, och symbolen Σ berättar för oss att lägga till de kvadratiska skillnaderna (xjag - x̄) för alla jag.
Medan denna formel fungerar för beräkningar, finns det en ekvivalent genvägsformel som inte kräver att vi först beräknar provmedlet. Denna genvägsformel för summan av rutorna är
Σ (xjag2) - (Σ xjag)2/n
Här variabeln n hänvisar till antalet datapunkter i vårt prov.
För att se hur denna genvägsformel fungerar kommer vi att överväga ett exempel som beräknas med båda formlerna. Anta att vårt prov är 2, 4, 6, 8. Provmedlet är (2 + 4 + 6 + 8) / 4 = 20/4 = 5. Nu beräknar vi skillnaden för varje datapunkt med medelvärdet 5.
Vi kvadrerar nu vart och ett av dessa nummer och lägger dem samman. (-3)2 + (-1)2 + 12 + 32 = 9 + 1 + 1 + 9 = 20.
Nu kommer vi att använda samma uppsättning data: 2, 4, 6, 8 med genvägsformeln för att bestämma summan av kvadrater. Vi kvadrerar först varje datapunkt och lägger till dem tillsammans: 22 + 42 + 62 + 82 = 4 + 16 + 36 + 64 = 120.
Nästa steg är att lägga till alla data och kvadratera denna summa: (2 + 4 + 6 + 8)2 = 400. Vi delar detta med antalet datapunkter för att få 400/4 = 100.
Vi subtraherar nu detta nummer från 120. Detta ger oss att summan av de kvadratiska avvikelserna är 20. Detta var exakt det antal som vi redan har hittat från den andra formeln.
Många accepterar bara formeln till nominellt värde och har ingen aning om varför denna formel fungerar. Genom att använda lite algebra kan vi se varför denna genvägsformel motsvarar det traditionella, traditionella sättet att beräkna summan av kvadratavvikelser.
Även om det kan finnas hundratals, om inte tusentals värden i en verklig datauppsättning, kommer vi att anta att det bara finns tre datavärden: x1 , x2, x3. Det vi ser här kan utökas till en datauppsättning som har tusentals poäng.
Vi börjar med att notera det (x1 + x2 + x3) = 3 x̄. Uttrycket Σ (xjag - X)2 = (x1 - X)2 + (x2 - X)2 + (x3 - X)2.