Interkvartilintervallregeln är användbar för att upptäcka närvaron av outliers. Outliers är individuella värden som faller utanför det övergripande mönstret för resten av data. Den här definitionen är något vag och subjektiv, så det är bra att ha en regel som hjälper till att överväga om en datapunkt verkligen är en överliggande.
Varje uppsättning data kan beskrivas med dess sammanfattning av fem siffror. Dessa fem siffror, i stigande ordning, består av:
Dessa fem siffror kan användas för att berätta mycket om våra data. Till exempel är intervallet, som bara är det minsta som subtraheras från det maximala, en indikator för hur man sprider datauppsättningen är.
Liknar intervallet, men mindre känsligt för utskott, är interkvartilområdet. Interkvartilområdet beräknas på ungefär samma sätt som intervallet. Allt vi gör är att subtrahera den första kvartilen från den tredje kvartilen:
IQR = Q3 - Q1.
Interkvartilområdet visar hur informationen sprids om medianen. Det är mindre mottagligt än intervallet för utdelare.
Interkvartilområdet kan användas för att upptäcka outliers. Allt vi behöver göra är att göra följande:
Det är viktigt att komma ihåg att detta är en tumregel och i allmänhet gäller. I allmänhet bör vi följa upp i vår analys. Alla potentiella outlier som erhålls med denna metod bör undersökas i samband med hela uppsättningen av data.
Vi kommer att se denna interkvartila intervallregel på jobbet med ett numeriskt exempel. Anta att vi har följande uppsättning data: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Den fem siffror sammanfattningen för denna datamängd är minst = 1, första kvartilen = 4, median = 7, tredje kvartilen = 10 och maximalt = 17. Vi kanske tittar på uppgifterna och säger att 17 är en överskridare. Men vad säger vår interkvartila intervallregel?
Vi beräknar det interkvartila intervallet som ska vara
Q3 - Q1 = 10 - 4 = 6
Vi multiplicerar nu med 1,5 och har 1,5 x 6 = 9. Nio mindre än den första kvartilen är 4 - 9 = -5. Inga uppgifter är mindre än detta. Nio mer än den tredje kvartilen är 10 + 9 = 19. Inga uppgifter är större än detta. Trots att det maximala värdet är fem fler än den närmaste datapunkten, visar interkvarteringsregeln att det förmodligen inte bör betraktas som en utligare för denna datamängd.