Förstå definitioner och användningar av kvantiteter

Sammanfattningsstatistik såsom median, första kvartil och tredje kvartil är mätningar av position. Detta beror på att dessa siffror indikerar var en specificerad del av distributionen av data ligger. Till exempel är medianen mittpositionen för de uppgifter som undersöks. Hälften av uppgifterna har värden mindre än medianen. På liknande sätt har 25% av uppgifterna värden mindre än den första kvartilen och 75% av uppgifterna har värden mindre än den tredje kvartilen.

Detta koncept kan generaliseras. Ett sätt att göra detta är att överväga percentiler. Den 90: e percentilen indikerar den punkt där 90% av uppgifterna har värden mindre än detta antal. Mer generellt, pth percentilen är antalet n för vilka p% av uppgifterna är mindre än n.

Kontinuerliga slumpmässiga variabler

Även om orderstatistiken för median, första kvartil och tredje kvartil vanligtvis införs i en inställning med en diskret uppsättning data, kan denna statistik också definieras för en kontinuerlig slumpvariabel. Eftersom vi arbetar med en kontinuerlig distribution använder vi integralen. De pth percentilen är ett tal n Så att:

∫_-₶ⁿ f ( x ) dx = p/ 100.

Här f ( x ) är en sannolikhetsdensitetsfunktion. Således kan vi erhålla vilken percentil vi vill ha för en kontinuerlig distribution.

kvantiler

En ytterligare generalisering är att notera att vår orderstatistik delar upp distributionen som vi arbetar med. Medianen delar upp datauppsättningen i hälften, och medianen eller 50: e percentilen av en kontinuerlig fördelning delar upp fördelningen i hälften med avseende på area. Den första kvartilen, medianen och den tredje kvartilen partitionerar våra data i fyra delar med samma räkning i vardera. Vi kan använda ovanstående integral för att erhålla den 25: e, 50: e och 75: e percentilen och dela upp en kontinuerlig fördelning i fyra delar med lika stort område.

Vi kan generalisera den här proceduren. Frågan som vi kan börja med ges ett naturligt tal n, hur kan vi dela upp en variabels fördelning i n lika stora bitar? Detta talar direkt till idén om kvantiler.

De n kvantiler för en datamängd hittas ungefär genom att rangordna uppgifterna i ordning och sedan dela upp denna ranking n - 1 lika fördelade punkter på intervallet.

Om vi har en sannolikhetsdensitetsfunktion för en kontinuerlig slumpvariabel, använder vi integralen ovan för att hitta kvantilerna. För n kvantiler, vi vill:

Den första som har 1 /n av fördelningsområdet till vänster om det.
Den andra att ha 2 /n av fördelningsområdet till vänster om det.
De ratt ha r/n av fördelningsområdet till vänster om det.
Den sista att ha (n - 1) /n av fördelningsområdet till vänster om det.

Vi ser det för alla naturliga nummer n, de n kvantiler motsvarar 100r/nth-percentiler, där r kan vara vilket naturligt nummer som helst från 1 till n - 1.

Vanliga kvantiler

Vissa typer av kvantiler används vanligt nog för att ha specifika namn. Nedan finns en lista över dessa:

Den 2 kvantilen kallas medianen
De 3 kvantilerna kallas terciles
De fyra kvantilerna kallas kvartiler
De 5 kvantilerna kallas kvintiler
De 6 kvantilerna kallas sextiler
De sju kvantilerna kallas septiler
De åtta kvantilerna kallas oktiler
De 10 kvantilerna kallas deciler
De 12 kvantilerna kallas duodeciler
De 20 kvantilerna kallas vigintiler
De 100 kvantilerna kallas percentiler
De 1000 kvantilerna kallas permiller

Naturligtvis finns andra kvantiler utöver de i listan ovan. Många gånger matchar den specifika kvantilen som användes storleken på provet från en kontinuerlig distribution.

Användning av kvantiler

Förutom att ange positionen för en uppsättning data, är kvantiler användbara på andra sätt. Anta att vi har ett enkelt slumpmässigt urval från en population, och fördelningen av befolkningen är okänd. För att avgöra om en modell, till exempel en normalfördelning eller Weibull-fördelning passar bra för den population vi samplade från, kan vi titta på kvantilerna i våra data och modellen.

Genom att matcha kvantilerna från våra provdata till kvantilerna från en viss sannolikhetsfördelning är resultatet en samling av parade data. Vi plottar dessa data i en spridningsdiagram, känd som en kvantkvantilplot eller q-q-plot. Om den resulterande spridploten är ungefär linjär passar modellen bra för våra data.

Vetenskap