Vad är de första och tredje kvartilerna?

Den första och tredje kvartilen är beskrivande statistik som är mätningar av position i en datamängd. I likhet med hur medianen anger halvvägspunkten för en datamängd, markerar den första kvartilen kvartalet eller 25% poäng. Cirka 25% av datavärdena är mindre än eller lika med den första kvartilen. Den tredje kvartilen är liknande, men för de övre 25% av datavärden. Vi kommer att undersöka dessa idéer mer detaljerat i det följande.

Median

Det finns flera sätt att mäta centrum för en uppsättning data. Medelvärdet, median, läge och mellanslag har alla sina fördelar och begränsningar när det gäller att uttrycka mitten av data. Av alla dessa sätt att hitta medelvärdet är medianen den mest resistenta mot outliers. Det markerar mitten av uppgifterna i den meningen att hälften av uppgifterna är mindre än medianen.

Den första kvartilen

Det finns ingen anledning att vi måste sluta med att hitta bara mitten. Vad händer om vi beslutade att fortsätta denna process? Vi kunde beräkna medianen för den nedre halvan av våra data. Hälften av 50% är 25%. Således skulle halva hälften, eller en fjärdedel, av uppgifterna ligga under detta. Eftersom vi har att göra med en fjärdedel av den ursprungliga uppsättningen, kallas denna median för den nedre halvan av data den första kvartilen och betecknas med Q1.

Den tredje kvartilen

Det finns ingen anledning till att vi tittade på den nedre hälften av uppgifterna. Istället kunde vi ha tittat på den övre halvan och utfört samma steg som ovan. Medianen för denna halva, som vi kommer att beteckna med Q3 delar också upp datauppsättningen i kvartal. Detta nummer anger emellertid den övre fjärdedelen av uppgifterna. Således ligger tre fjärdedelar av uppgifterna under vårt antal Q3. Det är därför vi ringer Q3 den tredje kvartilen.

Ett exempel

För att göra detta klart, låt oss titta på ett exempel. Det kan vara bra att först granska hur median för vissa data beräknas. Börja med följande datauppsättning:

1, 2, 2, 3, 4, 6, 6, 7, 7, 7, 8, 11, 12, 15, 15, 15, 17, 17, 18, 20

Det finns totalt tjugo datapunkter i uppsättningen. Vi börjar med att hitta median. Eftersom det finns ett jämnt antal datavärden är median medelvärdet av det tionde och elfte värdet. Med andra ord är medianen:

(7 + 8) / 2 = 7,5.

Titta nu på den nedre hälften av uppgifterna. Medianen för denna hälft finns mellan femte och sjätte värdena för:

1, 2, 2, 3, 4, 6, 6, 7, 7, 7

Således befinns den första kvartilen lika Q1 = (4 + 6) / 2 = 5

För att hitta den tredje kvartilen, titta på den övre halvan av den ursprungliga datauppsättningen. Vi måste hitta medianen av:

8, 11, 12, 15, 15, 15, 17, 17, 18, 20

Här är medianen (15 + 15) / 2 = 15. Således den tredje kvartilen Q3 = 15.

Interkvartilt intervall och sammanfattning av fem nummer

Kvartiler hjälper till att ge oss en mer fullständig bild av vår datauppsättning som helhet. Den första och tredje kvartilen ger oss information om den interna strukturen i våra data. Den mellersta halvan av data faller mellan den första och den tredje kvartilen och är centrerad kring median. Skillnaden mellan den första och den tredje kvartilen, kallad interkvartilintervallet, visar hur informationen är ordnad om medianen. Ett litet interkvartilt intervall indikerar data som är klumpiga om medianen. Ett större interkvartilt intervall visar att uppgifterna är mer spridda.

En mer detaljerad bild av uppgifterna kan erhållas genom att känna till det högsta värdet, kallat det maximala värdet, och det lägsta värdet, kallat minimivärdet. Minsta, första kvartil, median, tredje kvartil och max är en uppsättning av fem värden som kallas sammanfattningen av fem nummer. Ett effektivt sätt att visa dessa fem siffror kallas en ruta eller ruta och whisker-graf.