Ibland kommer numeriska data i par. Kanske mäter en paleontolog längderna på lårbenet (benbenet) och humerus (armbenet) i fem fossiler av samma dinosaurieart. Det kan vara vettigt att överväga armlängderna separat från benlängderna och beräkna saker som medelvärdet eller standardavvikelsen. Men vad händer om forskaren är nyfiken på att veta om det finns ett samband mellan dessa två mätningar? Det räcker inte att bara titta på armarna separat från benen. Istället bör paleontologen para ihop längden på benen för varje skelett och använda ett område med statistik som kallas korrelation.
Vad är korrelation? Antag i exemplet ovan att forskaren studerade data och nådde det inte särskilt förvånande resultatet att dinosaurifossiler med längre armar också hade längre ben, och fossil med kortare armar hade kortare ben. En spridningsdiagram av data visade att datapunkterna alla var grupperade nära en rak linje. Forskaren skulle då säga att det finns en stark rak linje relation, eller korrelation, mellan längden på armbenen och benbenen på fossilerna. Det kräver lite mer arbete för att säga hur stark korrelationen är.
Eftersom varje datapunkt representerar två siffror är en tvådimensionell spridningsdiagram en stor hjälp för att visualisera data. Anta att vi faktiskt har våra händer på dinosaurdata, och de fem fossilerna har följande mätningar:
En spridningsdiagram med data, med femurmätning i horisontell riktning och humerusmätning i vertikal riktning, resulterar i ovanstående graf. Varje punkt representerar mätningarna av ett av skelettarna. Till exempel motsvarar punkten längst ner till vänster skelett nr 1. Punkten längst upp till höger är skelett # 5.
Det verkar verkligen som om vi skulle kunna rita en rak linje som skulle vara mycket nära alla punkter. Men hur kan vi säga säkert? Närhet är i betraktarens öga. Hur vet vi att våra definitioner av "närhet" matchar någon annan? Finns det något sätt vi kan kvantifiera denna närhet?
För att objektivt mäta hur nära uppgifterna är att vara längs en rak linje kommer korrelationskoefficienten att rädda. Korrelationskoefficienten, typiskt betecknad r, är ett verkligt tal mellan -1 och 1. Värdet på r mäter styrkan hos en korrelation baserad på en formel, eliminerar all subjektivitet i processen. Det finns flera riktlinjer att tänka på när du tolkar värdet av r.
Formeln för korrelationskoefficienten r är komplicerat, som kan ses här. Beståndsdelarna i formeln är medel och standardavvikelser för båda uppsättningarna av numeriska data, liksom antalet datapunkter. För de flesta praktiska tillämpningar r är tråkig att beräkna för hand. Om våra data har matats in i en räknare eller ett kalkylprogram med statistiska kommandon, finns det vanligtvis en inbyggd funktion att beräkna r.
Även om korrelation är ett kraftfullt verktyg, finns det vissa begränsningar när det gäller att använda det: