Vad är den interkvartila räckvidden?

Interkvartilintervallregeln är användbar för att upptäcka närvaron av outliers. Outliers är individuella värden som faller utanför det övergripande mönstret för resten av data. Den här definitionen är något vag och subjektiv, så det är bra att ha en regel som hjälper till att överväga om en datapunkt verkligen är en överliggande.

Interquartile Range

Varje uppsättning data kan beskrivas med dess sammanfattning av fem siffror. Dessa fem siffror, i stigande ordning, består av:

  • Datas minsta eller lägsta värde
  • Den första kvartilen Q1 - detta representerar en fjärdedel av vägen genom listan över alla data
  • Median för datauppsättningen - detta representerar mittpunkten i listan med alla data
  • Den tredje kvartilen Q3 - detta representerar tre fjärdedelar av vägen genom listan över alla data
  • Datauppsättningens högsta eller högsta värde.

Dessa fem siffror kan användas för att berätta mycket om våra data. Till exempel är intervallet, som bara är det minsta som subtraheras från det maximala, en indikator för hur man sprider datauppsättningen är.

Liknar intervallet, men mindre känsligt för utskott, är interkvartilområdet. Interkvartilområdet beräknas på ungefär samma sätt som intervallet. Allt vi gör är att subtrahera den första kvartilen från den tredje kvartilen:

IQR = Q3 - Q1.

Interkvartilområdet visar hur informationen sprids om medianen. Det är mindre mottagligt än intervallet för utdelare.

Interkvartil regel för utspelare

Interkvartilområdet kan användas för att upptäcka outliers. Allt vi behöver göra är att göra följande:

  1. Beräkna interkvartilområdet för våra data
  2. Multiplicera interkvartilområdet (IQR) med siffran 1,5
  3. Lägg 1,5 x (IQR) till den tredje kvartilen. Varje antal som är större än detta är en misstänkt outlier.
  4. Dra 1,5 x (IQR) från den första kvartilen. Varje antal som är mindre än detta är en misstänkt utmanare.

Det är viktigt att komma ihåg att detta är en tumregel och i allmänhet gäller. I allmänhet bör vi följa upp i vår analys. Alla potentiella outlier som erhålls med denna metod bör undersökas i samband med hela uppsättningen av data.

Exempel

Vi kommer att se denna interkvartila intervallregel på jobbet med ett numeriskt exempel. Anta att vi har följande uppsättning data: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Den fem siffror sammanfattningen för denna datamängd är minst = 1, första kvartilen = 4, median = 7, tredje kvartilen = 10 och maximalt = 17. Vi kanske tittar på uppgifterna och säger att 17 är en överskridare. Men vad säger vår interkvartila intervallregel?

Vi beräknar det interkvartila intervallet som ska vara

Q3 - Q1 = 10 - 4 = 6

Vi multiplicerar nu med 1,5 och har 1,5 x 6 = 9. Nio mindre än den första kvartilen är 4 - 9 = -5. Inga uppgifter är mindre än detta. Nio mer än den tredje kvartilen är 10 + 9 = 19. Inga uppgifter är större än detta. Trots att det maximala värdet är fem fler än den närmaste datapunkten, visar interkvarteringsregeln att det förmodligen inte bör betraktas som en utligare för denna datamängd.