Det finns många frågor att ställa när man tittar på en scatterplot. En av de vanligaste är hur väl ungefär är en rak linje ungefärlig informationen? För att hjälpa till att svara på detta finns det en beskrivande statistik som kallas korrelationskoefficienten. Vi kommer att se hur man beräknar denna statistik.
Korrelationskoefficienten, betecknad med r berättar hur nära data i en spridningsplott faller längs en rak linje. Ju närmare det absoluta värdet av r är till en, desto bättre att data beskrivs med en linjär ekvation. Om r = 1 eller r = -1 då är datauppsättningen perfekt anpassad. Datauppsättningar med värden på r nära noll visar liten eller ingen linjär relation.
På grund av de långa beräkningarna är det bäst att beräkna r med hjälp av en kalkylator eller statistisk programvara. Det är emellertid alltid en värdefull strävan att veta vad din kalkylator gör när den beräknar. Det följande är en process för beräkning av korrelationskoefficienten huvudsakligen för hand, med en räknare som används för de rutinmässiga aritmetiska stegen.
Vi börjar med att lista stegen till beräkningen av korrelationskoefficienten. Uppgifterna vi arbetar med är ihopkopplade data, där varje par kommer att betecknas med (xjag,yjag).
Denna process är inte svår, och varje steg är ganska rutinmässigt, men samlingen av alla dessa steg är ganska involverad. Beräkningen av standardavvikelsen är tillräckligt tråkig på egen hand. Men beräkningen av korrelationskoefficienten involverar inte bara två standardavvikelser, utan en mängd andra operationer.
För att se exakt hur värdet på r erhålls ser vi på ett exempel. Återigen är det viktigt att notera att för praktiska applikationer skulle vi vilja använda vår kalkylator eller statistiska programvara för att beräkna r för oss.
Vi börjar med en lista över parade data: (1, 1), (2, 3), (4, 5), (5,7). Medelvärdet för x värden, medelvärdet av 1, 2, 4 och 5 är x̄ = 3. Vi har också att ȳ = 4. Standardavvikelsen för x värden är sx = 1,83 och sy = 2,58. Tabellen nedan sammanfattar de andra beräkningar som behövs för r. Summan av produkterna i kolumnen längst till höger är 2.969848. Eftersom det finns totalt fyra punkter och 4 - 1 = 3, delar vi summan av produkterna med 3. Detta ger oss en korrelationskoefficient på r = 2,969848 / 3 = 0,9989949.
x | y | zx | zy | zxzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1,161894958 | 1,272792057 |
2 | 3 | -0,547722515 | -0,387298319 | 0,212132009 |
4 | 5 | 0,547722515 | 0,387298319 | 0,212132009 |
5 | 7 | 1.09544503 | 1,161894958 | 1,272792057 |