Regressionslinjens lutning och korrelationskoefficient

Många gånger i studiet av statistik är det viktigt att koppla samman olika ämnen. Vi kommer att se ett exempel på detta, där regressionslinjens lutning är direkt relaterad till korrelationskoefficienten. Eftersom dessa begrepp båda involverar raka linjer är det bara naturligt att ställa frågan, "Hur är korrelationskoefficienten och minsta kvadratlinje relaterade?" 

Först kommer vi att titta på lite bakgrund angående båda dessa ämnen.

Detaljer om korrelation

Det är viktigt att komma ihåg de detaljer som rör korrelationskoefficienten, som betecknas med r. Denna statistik används när vi har parat kvantitativa data. Från en spridningsdiagram av denna parade data kan vi leta efter trender i den övergripande distributionen av data. Vissa ihopkopplade data uppvisar ett linjärt eller rak linje mönster. Men i praktiken faller data aldrig exakt längs en rak linje.

Flera personer som tittar på samma spridningsdiagram av parade data skulle vara oeniga om hur nära det var att visa en övergripande linjär trend. När allt kommer omkring kan våra kriterier för detta vara något subjektiva. Den skala som vi använder kan också påverka vår uppfattning om uppgifterna. Av dessa skäl och mer behöver vi någon form av objektiv åtgärd för att berätta hur nära våra parade data är att vara linjära. Korrelationskoefficienten uppnår detta för oss.

Några grundläggande fakta om r inkludera:

  • Värdet av r sträcker sig mellan valfritt tal från -1 till 1.
  • Värden för r nära 0 innebär att det finns liten eller ingen linjär relation mellan data.
  • Värden för r nära 1 antyder att det finns ett positivt linjärt förhållande mellan data. Detta betyder att som x ökar det y ökar också.
  • Värden för r nära -1 antyder att det finns ett negativt linjärt förhållande mellan data. Detta betyder att som x ökar det y minskar.

Lutningen för de minsta kvadraterna

De två sista artiklarna i listan ovan pekar oss mot lutningen för den minsta kvadratlinjen som passar bäst. Kom ihåg att lutningen på en linje är ett mått på hur många enheter den går upp eller ner för varje enhet vi flyttar till höger. Ibland anges detta som stigningen av linjen dividerat med körningen eller förändringen i y värden dividerat med förändringen i x värden.

I allmänhet har raka linjer sluttningar som är positiva, negativa eller noll. Om vi ​​skulle undersöka våra minst kvadratiska regressionslinjer och jämföra motsvarande värden på r, vi märker att varje gång vår data har en negativ korrelationskoefficient, är regressionslinjens lutning negativ. På samma sätt, för varje gång vi har en positiv korrelationskoefficient, är regressionslinjens lutning positiv.

Det bör framgå av denna iakttagelse att det definitivt finns en koppling mellan korrelationskoefficientens tecken och lutningen för den minsta kvadratlinjen. Det återstår att förklara varför detta är sant.

Formeln för sluttningen

Anledningen till kopplingen mellan värdet på r och lutningen för den minsta kvadratlinjen har att göra med formeln som ger oss lutningen för denna linje. För parade data (x, y) vi anger standardavvikelsen för x data av sx och standardavvikelsen för y data av sy.

Formeln för sluttningen en för regressionslinjen är:

  • a = r (sy/ sx)

Beräkningen av en standardavvikelse innebär att man tar ett positivt kvadratrot av ett icke-negativt tal. Som ett resultat måste båda standardavvikelserna i formeln för sluttningen vara icke-negativa. Om vi ​​antar att det finns någon variation i våra data, kommer vi att kunna bortse från möjligheten att någon av dessa standardavvikelser är noll. Därför kommer korrelationskoefficientens tecken att vara detsamma som regressionslinjens lutning.