En spridningsdiagram är en typ av graf som används för att representera parade data. Den förklarande variabeln är ritad längs den horisontella axeln och svarsvariabeln ritas längs den vertikala axeln. En anledning till att använda denna typ av graf är att leta efter förhållanden mellan variablerna.
Det mest grundläggande mönstret att leta efter i en uppsättning av parade data är en rak linje. Genom två poäng kan vi dra en rak linje. Om det finns mer än två punkter i vår scatterplot kommer vi för det mesta inte längre att kunna rita en linje som går igenom varje punkt. Istället drar vi en linje som passerar mitt i punkterna och visar den övergripande linjära trenden för data.
När vi tittar på punkterna i vår graf och vill dra en linje genom dessa punkter uppstår en fråga. Vilken linje ska vi rita? Det finns ett oändligt antal rader som kan dras. Genom att bara använda våra ögon är det uppenbart att varje person som tittar på spridplottet skulle kunna producera en något annorlunda linje. Denna tvetydighet är ett problem. Vi vill ha ett väldefinierat sätt för alla att få samma linje. Målet är att ha en matematisk exakt beskrivning av vilken linje som ska dras. Minsta kvadraters regressionslinje är en sådan linje genom våra datapunkter.
Namnet på den minsta kvadratlinjen förklarar vad den gör. Vi börjar med en samling punkter med koordinater som ges av (xjag, yjag). Alla raka linjer passerar mellan dessa punkter och kommer antingen att gå över eller under var och en av dessa. Vi kan beräkna avståndet från dessa punkter till linjen genom att välja ett värde på x och subtrahera sedan det observerade y koordinat som motsvarar detta x från y koordinat för vår linje.
Olika linjer genom samma uppsättning punkter skulle ge en annan uppsättning avstånd. Vi vill att dessa avstånd ska vara så små som vi kan göra dem. Men det är ett problem. Eftersom våra avstånd kan vara antingen positiva eller negativa kommer summan av alla dessa avstånd att avbryta varandra. Summan av avstånd kommer alltid att vara lika med noll.
Lösningen på detta problem är att eliminera alla negativa siffror genom att kvadratera avståndet mellan punkterna och linjen. Detta ger en samling icke-negativa siffror. Målet vi hade att hitta en linje med bästa passform är detsamma som att göra summan av dessa kvadratiska avstånd så liten som möjligt. Kalkylen räddas här. Processen för differentiering i kalkylen gör det möjligt att minimera summan av kvadratiska avstånd från en given linje. Detta förklarar frasen "minsta kvadrater" i vårt namn för den här raden.
Eftersom den minsta kvadratlinjen minimerar de kvadratiska avstånden mellan linjen och våra punkter, kan vi tänka på den här linjen som den som bäst passar våra data. Detta är anledningen till den minsta kvadratlinjen kallas också den linje som passar bäst. Av alla möjliga linjer som kan dras är den minsta kvadratlinjen närmast datauppsättningen som helhet. Det kan innebära att vår linje kommer att missa att träffa någon av punkterna i vår uppsättning data.
Det finns några funktioner som varje minsta kvadratrad har. Den första intresseposten handlar om lutningen på vår linje. Lutningen har en anslutning till korrelationskoefficienten för våra data. Faktum är att lutningen på linjen är lika med r (sy/ sx). Här s x anger standardavvikelsen för x koordinater och s y standardavvikelsen för y koordinater för våra uppgifter. Korrelationskoefficientens tecken är direkt relaterat till tecknet på lutningen på vår minsta kvadratlinje.
En annan egenskap hos linjen med de minsta kvadraterna rör en punkt som den passerar genom. Medan y avlyssning av en minsta kvadratlinje kanske inte är intressant ur statistisk synvinkel, det är en punkt som är. Varje minsta kvadratlinje passerar mittpunkten för data. Denna mittpunkt har en x koordinat som är medelvärdet för x värden och y koordinat som är medelvärdet för y värden.