Linjär regression är ett statistiskt verktyg som avgör hur väl en rak linje passar en uppsättning av parade data. Den raka linjen som bäst passar den informationen kallas den minsta kvadraters regressionslinje. Denna rad kan användas på ett antal sätt. En av dessa användningar är att uppskatta värdet på en svarsvariabel för ett givet värde på en förklarande variabel. Relaterad till denna idé är en rest.
Residualer erhålls genom subtraktion. Allt vi måste göra är att subtrahera det förutsagda värdet på y från det observerade värdet på y för en viss x. Resultatet kallas en rest.
Formeln för rester är enkel:
Rest = observerat y - förutsagd y
Det är viktigt att notera att det förutsagda värdet kommer från vår regressionslinje. Det observerade värdet kommer från vår datauppsättning.
Vi illustrerar användningen av denna formel med hjälp av ett exempel. Anta att vi får följande uppsättning av parade data:
(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)
Genom att använda programvara kan vi se att den minsta kvadraters regressionslinje är y = 2x. Vi kommer att använda detta för att förutsäga värden för varje värde på x.
Till exempel när x = 5 ser vi att 2 (5) = 10. Detta ger oss den punkt längs vår regressionslinje som har en x koordinat för 5.
För att beräkna återstoden vid punkterna x = 5, vi drar bort det förutspådda värdet från vårt observerade värde. Sedan y koordinaten för vår datapunkt var 9, detta ger en rest av 9 - 10 = -1.
I följande tabell ser vi hur man beräknar alla våra rester för denna datauppsättning:
X | Observerad y | Förutspådd y | Resterande |
1 | 2 | 2 | 0 |
2 | 3 | 4 | -1 |
3 | 7 | 6 | 1 |
3 | 6 | 6 | 0 |
4 | 9 | 8 | 1 |
5 | 9 | 10 | -1 |
Nu när vi har sett ett exempel finns det några funktioner i rester att notera:
Det finns flera användningsområden för rester. En användning är att hjälpa oss att avgöra om vi har en datauppsättning som har en övergripande linjär trend, eller om vi bör överväga en annan modell. Anledningen till detta är att rester hjälper till att förstärka alla olinjära mönster i våra data. Vad som kan vara svårt att se genom att titta på en spridplot kan lättare observeras genom att undersöka resterna och en motsvarande restplott.
Ett annat skäl att överväga rester är att kontrollera att villkoren för inferens för linjär regression är uppfyllda. Efter verifiering av en linjär trend (genom att kontrollera resterna) kontrollerar vi också fördelningen av resterna. För att kunna utföra regressionsstörning, vill vi att återstoden om vår regressionslinje ska vara ungefär normalt fördelad. Ett histogram eller stamplott av resterna hjälper till att verifiera att detta villkor har uppfyllts.