Det är midnattvisningen av den senaste hitfilmen. Människor står uppradade utanför teatern och väntar på att komma in. Anta att du blir ombedd att hitta mitten av linjen. Hur skulle du göra detta?
Det finns ett par olika sätt att lösa detta problem. I slutändan måste du ta reda på hur många personer som var i raden och sedan ta hälften av det antalet. Om det totala antalet är jämnt, skulle mitt i linjen vara mellan två personer. Om det totala antalet är udda, skulle centret vara en enda person.
Du kan fråga, "Vad har det att hitta centrum för en linje med statistik att göra?" Denna idé om att hitta centrum är exakt vad som används när man beräknar medianen för en uppsättning data.
Median är ett av de tre primära sätten att hitta medelvärdet av statistiska data. Det är svårare att beräkna än läget, men inte så arbetsintensivt som att beräkna medelvärdet. Det är centrum på ungefär samma sätt som att hitta centrum för en rad människor. Efter att ha listat datavärdena i stigande ordning är median datavärdet med samma antal datavärden ovanför och under det.
Elva batterier testas för att se hur länge de håller. Deras livstid i timmar ges av 10, 99, 100, 103, 103, 105, 110, 111, 115, 130, 131. Vad är medianlivslängden? Eftersom det finns ett udda antal datavärden, motsvarar det en linje med ett udda antal personer. Mitten kommer att vara mittvärdet.
Det finns elva datavärden, så den sjätte är i mitten. Därför är medianbatteriets livslängd det sjätte värdet i denna lista, eller 105 timmar. Observera att medianen är ett av datavärdena.
Tjugo katter vägs. Deras vikter, i pund, ges av 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 9, 10, 10, 10, 11, 12, 12, 13. Vad är median kattvikt? Eftersom det finns ett jämnt antal datavärden, motsvarar detta linjen med ett jämnt antal personer. Mitten är mellan de två mellanvärdena.
I detta fall är mitten mellan det tionde och elfte datavärdet. För att hitta median beräknar vi medelvärdet av dessa två värden och erhåller (7 + 8) / 2 = 7,5. Här är medianen inte en av datavärdena.
De enda två möjligheterna är att ha ett jämnt eller udda antal datavärden. Så ovanstående två exempel är de enda möjliga sätten att beräkna medianen. Antingen kommer median att vara mittvärdet, eller så kommer median att vara medelvärdet av de två medelvärdena. Vanligtvis är datauppsättningar mycket större än de som vi tittade på ovan, men processen att hitta median är densamma som dessa två exempel.
Medelvärdet och läget är mycket känsligt för utdelare. Vad detta betyder är att närvaron av en utflyttare dramatiskt kommer att påverka båda dessa åtgärder i centrum. En fördel med medianen är att den inte påverkas lika mycket av en outlier.
För att se detta, tänk på datauppsättningen 3, 4, 5, 5, 6. Medelvärdet är (3 + 4 + 5 + 5 + 6) / 5 = 4.6, och medianen är 5. Behåll nu samma datauppsättning, men lägg till värdet 100: 3, 4, 5, 5, 6, 100. Helt klart 100 är en utskjutare, eftersom det är mycket större än alla andra värden. Medelvärdet för den nya uppsättningen är nu (3 + 4 + 5 + 5 + 6 + 100) / 6 = 20,5. Medianen för den nya uppsättningen är dock 5. Även om
På grund av vad vi har sett ovan är medianen det föredragna mått på medelvärdet när data innehåller utdelare. När inkomster rapporteras är en typisk metod att rapportera medianinkomsten. Detta görs eftersom medelinkomsten är skev av ett litet antal människor med mycket höga inkomster (tror Bill Gates och Oprah).