Inom uppsättningar av data finns det en mängd beskrivande statistik. Medel, median och läge ger alla mått på datorns centrum, men de beräknar detta på olika sätt:
På ytan verkar det som om det inte finns någon koppling mellan dessa tre siffror. Det visar sig dock att det finns ett empiriskt förhållande mellan dessa centrummått.
Innan vi fortsätter är det viktigt att förstå vad vi pratar om när vi hänvisar till en empirisk relation och kontrasterar detta med teoretiska studier. Vissa resultat i statistik och andra kunskapsområden kan härledas från vissa tidigare uttalanden på ett teoretiskt sätt. Vi börjar med det vi vet och använder sedan logik, matematik och deduktiv resonemang och ser vart detta leder oss. Resultatet är en direkt följd av andra kända fakta.
Kontrast med det teoretiska är det empiriska sättet att förvärva kunskap. I stället för att resonera från redan etablerade principer kan vi observera världen omkring oss. Från dessa observationer kan vi sedan formulera en förklaring av vad vi har sett. Mycket av vetenskapen görs på detta sätt. Experiment ger oss empiriska data. Målet blir då att formulera en förklaring som passar alla data.
I statistik finns det en relation mellan medelvärdet, median och läge som är empiriskt baserat. Observationer av otaliga datamängder har visat att skillnaden mellan medelvärdet och läget oftast är tre gånger skillnaden mellan medelvärdet och median. Detta förhållande i ekvationsform är:
Medelläge = 3 (medelvärde - median).
För att se ovanstående förhållande till verkliga data, låt oss ta en titt på de amerikanska statspopulationerna 2010. I miljoner var befolkningen: Kalifornien - 36,4, Texas - 23,5, New York - 19,3, Florida - 18,1, Illinois - 12,8, Pennsylvania - 12.4, Ohio - 11.5, Michigan - 10.1, Georgia - 9.4, North Carolina - 8.9, New Jersey - 8.7, Virginia - 7.6, Massachusetts - 6.4, Washington - 6.4, Indiana - 6.3, Arizona - 6.2, Tennessee - 6.0, Missouri - 5.8, Maryland - 5.6, Wisconsin - 5.6, Minnesota - 5.2, Colorado - 4.8, Alabama - 4.6, South Carolina - 4.3, Louisiana - 4.3, Kentucky - 4.2, Oregon - 3.7, Oklahoma - 3.6, Connecticut - 3.5, Iowa - 3.0, Mississippi - 2.9, Arkansas - 2.8, Kansas - 2.8, Utah - 2.6, Nevada - 2.5, New Mexico - 2.0, West Virginia - 1.8, Nebraska - 1.8, Idaho - 1.5, Maine - 1.3, New Hampshire - 1.3, Hawaii - 1.3, Rhode Island - 1.1, Montana - .9, Delaware - .9, South Dakota - .8, Alaska - .7, North Dakota - .6, Vermont - .6, Wyoming - .5
Medelpopulationen är 6,0 miljoner. Medianpopulationen är 4,25 miljoner. Läget är 1,3 miljoner. Nu kommer vi att beräkna skillnaderna från ovan:
Medan dessa två skillnadssiffror inte matchar exakt, är de relativt nära varandra.
Det finns ett par applikationer för ovanstående formel. Anta att vi inte har en lista med datavärden, men känner till två av medelvärdet, medianen eller läget. Ovanstående formel kan användas för att uppskatta den tredje okända kvantiteten.
Om vi till exempel vet att vi har ett medelvärde på 10, ett läge på 4, vad är median för vår datauppsättning? Eftersom medelläge = 3 (medelvärde - median) kan vi säga att 10 - 4 = 3 (10 - median). Genom någon algebra ser vi att 2 = (10 - median), och medianen för våra data är 8.
En annan tillämpning av ovanstående formel är att beräkna skevhet. Eftersom skevhet mäter skillnaden mellan medelvärdet och läget, kan vi istället beräkna 3 (medelläge). För att göra denna kvantitet måttlös kan vi dela den med standardavvikelsen för att ge ett alternativt sätt att beräkna skevheten än att använda moment i statistik.
Såsom ses ovan är ovanstående inte ett exakt förhållande. Istället är det en bra tumregel, liknande den för avståndsregeln, som skapar en ungefärlig koppling mellan standardavvikelsen och räckvidden. Medelvärdet, medianen och läget kanske inte passar exakt i ovanstående empiriska förhållande, men det finns en god chans att det kommer att vara ganska nära.