Förstå interquartile intervallet i statistik

Interkvartilområdet (IQR) är skillnaden mellan den första kvartilen och den tredje kvartilen. Formeln för detta är:

IQR = Q3 - Q1

Det finns många mätningar av variationen i en uppsättning data. Både räckvidden och standardavvikelsen berättar hur spridd vår information är. Problemet med denna beskrivande statistik är att de är ganska känsliga för outliers. En mätning av spridningen av en datasats som är mer motståndskraftig mot förekomsten av utskott är interkvartilområdet.

Definition av Interquartile Range

Som ses ovan bygger interkvartilområdet på beräkningen av annan statistik. Innan vi bestämmer interkvartilområdet måste vi först känna till värdena på den första kvartilen och den tredje kvartilen. (Naturligtvis beror de första och tredje kvartilerna på värdet på medianen).

När vi har bestämt värdena på den första och den tredje kvartilen är interkvartilområdet mycket lätt att beräkna. Allt vi behöver göra är att subtrahera den första kvartilen från den tredje kvartilen. Detta förklarar användningen av termen interkvartilintervall för denna statistik.

Exempel

För att se ett exempel på beräkningen av ett interkvartilt intervall kommer vi att ta hänsyn till uppsättningen av data: 2, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9. De fem numren sammanfattning för detta uppsättning data är:

  • Minst 2
  • Första kvartilen på 3,5
  • Median av 6
  • Tredje kvartilen av 8
  • Maximalt 9

Således ser vi att interkvartilområdet är 8 - 3,5 = 4,5.

Betydelsen av Interquartile Range

Utbudet ger oss en mätning av hur utbredd hela vår datauppsättning är. Interkvartilintervallet, som berättar hur långt ifrån varandra den första och tredje kvartilen är, indikerar hur spridda de mittersta 50% av vår datamängd är.

Motstånd mot utslagare

Den primära fördelen med att använda interkvartilintervallet snarare än intervallet för mätning av spridningen av en datamängd är att interkvartilintervallet inte är känsligt för outliers. För att se detta kommer vi att titta på ett exempel.

Från uppsättningen data ovan har vi ett interkvartilt intervall på 3,5, ett intervall på 9 - 2 = 7 och en standardavvikelse på 2,34. Om vi ​​ersätter det högsta värdet på 9 med en extrem outlier på 100, blir standardavvikelsen 27,37 och intervallet är 98. Även om vi har ganska drastiska förskjutningar av dessa värden, påverkas inte den första och tredje kvartilen och därmed interkvartilområdet förändras inte.

Användning av Interquartile Range

Förutom att det är ett mindre känsligt mått på spridningen av en datauppsättning har interkvartilområdet en annan viktig användning. På grund av dess motståndskraft mot outliers är interkvartilområdet användbart för att identifiera när ett värde är ett outlier.

Interkvartilområdesregeln är det som informerar oss om vi har en mild eller stark outlier. För att leta efter en överskridare måste vi titta under den första kvartilen eller över den tredje kvartilen. Hur långt vi ska gå beror på värdet på interkvartilområdet.