En funktion i en datauppsättning som är viktig att bestämma är om den innehåller några utskott. Outliers anses intuitivt som värden i vår datamängd som skiljer sig mycket från en majoritet av resten av uppgifterna. Naturligtvis är denna förståelse av utdelare tvetydig. Hur mycket ska värdet avvika från resten av uppgifterna för att betraktas som en utläggare? Är det en forskare kallar en utlänning som kommer att matcha med en annan? För att tillhandahålla viss konsistens och ett kvantitativt mått för bestämning av utskott använder vi inre och yttre staket.
För att hitta de inre och yttre stängslarna i en uppsättning data behöver vi först några andra beskrivande statistik. Vi börjar med att beräkna kvartiler. Detta kommer att leda till interkvartilområdet. Slutligen, med dessa beräkningar bakom oss, kommer vi att kunna bestämma inre och yttre staket.
De första och tredje kvartilerna är en del av sammanfattningen av fem siffror för alla uppsättningar av kvantitativa data. Vi börjar med att hitta median- eller mittpunkten för data efter att alla värden listas i stigande ordning. Värdena mindre än medianen motsvarar ungefär hälften av data. Vi hittar medianen för hälften av datauppsättningen, och detta är den första kvartilen.
På liknande sätt betraktar vi nu den övre halvan av datauppsättningen. Om vi hittar median för denna hälften av data, så har vi de tredje kvartilerna. Dessa kvartiler får sitt namn från det faktum att de delar upp datauppsättningen i fyra delar av samma storlek eller kvartal. Så med andra ord är ungefär 25% av alla datavärden mindre än den första kvartilen. På liknande sätt är cirka 75% av datavärdena mindre än den tredje kvartilen.
Nästa måste vi hitta interkvartilområdet (IQR). Detta är lättare att beräkna än den första kvartilen q1 och den tredje kvartilen q3. Allt vi behöver göra är att ta skillnaden mellan dessa två kvartiler. Detta ger oss formeln:
IQR = Q3 - Q1
IQR berättar hur spridd den mellersta halvan av vår datauppsättning är.
Vi kan nu hitta de inre stängslarna. Vi börjar med IQR och multiplicerar detta nummer med 1,5. Vi subtraherar sedan detta nummer från den första kvartilen. Vi lägger också till detta nummer till den tredje kvartilen. Dessa två siffror utgör vårt inre staket.
För de yttre stängslarna börjar vi med IQR och multiplicerar detta nummer med 3. Vi subtraherar sedan detta nummer från den första kvartilen och lägger till det i den tredje kvartilen. Dessa två siffror är våra yttre staket.
Upptäckten av utdelare blir nu lika enkelt som att bestämma var datavärdena ligger med hänvisning till våra inre och yttre staket. Om ett enskilt datavärde är mer extremt än någon av våra yttre staket, är det här en utskjutare och kallas ibland en stark utsträckare. Om vårt datavärde ligger mellan ett motsvarande inre och yttre staket, är detta värde en misstänkt outlier eller en mild outlier. Vi kommer att se hur detta fungerar med exemplet nedan.
Anta att vi har beräknat den första och tredje kvartilen av våra data, och har hittat dessa värden till 50 respektive 60. Interkvartilintervallet IQR = 60 - 50 = 10. Därefter ser vi att 1,5 x IQR = 15. Detta innebär att de inre stängslarna är 50 - 15 = 35 och 60 + 15 = 75. Detta är 1,5 x IQR mindre än första kvartilen och mer än den tredje kvartilen.
Vi beräknar nu 3 x IQR och ser att detta är 3 x 10 = 30. De yttre stängslarna är 3 x IQR mer extrema än de första och tredje kvartilerna. Detta innebär att de yttre stängslarna är 50 - 30 = 20 och 60 + 30 = 90.
Alla datavärden som är mindre än 20 eller högre än 90 betraktas som utslagare. Alla datavärden mellan 29 och 35 eller mellan 75 och 90 är misstänkta utdelare.