Vad är ett intervall i statistik?

I statistik och matematik är intervallet skillnaden mellan maximala och minsta värden för en datamängd och fungerar som en av två viktiga funktioner i en datamängd. Formeln för ett intervall är det maximala värdet minus det minsta värdet i datasättet, vilket ger statistiker en bättre förståelse för hur varierande datauppsättningen är.

Två viktiga funktioner i en datauppsättning inkluderar datacentret och spridningen av data, och mitten kan mätas på ett antal sätt: de mest populära av dessa är medelvärdet, median, läge och mellanslag, men i på liknande sätt finns det olika sätt att beräkna hur spridningen av datamängden är och det enklaste och grovaste måttet på spridning kallas intervallet.

Beräkningen av intervallet är mycket enkelt. Allt vi behöver göra är att hitta skillnaden mellan det största datavärdet i vår uppsättning och det minsta datavärdet. Kort sagt har vi följande formel: Område = Maximum Value-Minimum Value. Till exempel har datauppsättningen 4,6,10, 15, 18 högst 18, ett minimum av 4 och ett intervall av 18-4 = 14.

Begränsningar av räckvidd

Området är en mycket grov mätning av spridningen av data eftersom det är extremt känsligt för utläsare, och som ett resultat finns det vissa begränsningar för användbarheten av ett riktigt intervall av en datauppsättning till statistiker eftersom ett enda datavärde kan påverka i hög grad värdet på intervallet.

Tänk till exempel uppsättningen data 1, 2, 3, 4, 6, 7, 7, 8. Det maximala värdet är 8, det minsta är 1 och intervallet är 7. Tänk sedan på samma uppsättning data, endast med värdet 100 ingår. Utbudet blir nu 100-1 = 99 varvid tillägget av en enda extra datapunkt i hög grad påverkade värdet på intervallet. Standardavvikelsen är ett annat mått på spridning som är mindre mottagligt för utläggare, men nackdelen är att beräkningen av standardavvikelsen är mycket mer komplicerad.

Utbudet berättar ingenting om våra interna funktioner i datauppsättningen. Vi tänker till exempel på datauppsättningen 1, 1, 2, 3, 4, 5, 5, 6, 7, 8, 8, 10 där intervallet för denna datamängd är 10-1 = 9. Om vi sedan jämför detta med datauppsättningen 1, 1, 1, 2, 9, 9, 9, 10. Här är intervallet, än en gång, nio för denna andra uppsättning och till skillnad från den första uppsättningen, är grupperade kring minimum och maximum. Annan statistik, såsom den första och tredje kvartilen, skulle behöva användas för att upptäcka en del av denna interna struktur.

Applications of Range

Utbudet är ett bra sätt att få en mycket grundläggande förståelse för hur spridda siffror i datauppsättningen verkligen är eftersom det är lätt att beräkna, eftersom det bara kräver en grundläggande aritmetisk operation, men det finns också några andra tillämpningar i området för en datauppsättning i statistik.

Området kan också användas för att uppskatta ett annat mått på spridningen, standardavvikelsen. Istället för att gå igenom en ganska komplicerad formel för att hitta standardavvikelsen, kan vi istället använda det som kallas intervallregeln. Området är grundläggande i denna beräkning.

Området inträffar också i en boxplot, eller box och whiskers-plot. Max- och minimivärdena är båda diagramade i slutet av whiskers i diagrammet och den totala längden på whiskers och rutan är lika med intervallet.

Vetenskap