Vad är skevhet i statistik?

Vissa datafördelningar, såsom klockkurvan eller normalfördelning, är symmetriska. Detta betyder att höger och vänster om distributionen är perfekta spegelbilder av varandra. Inte varje distribution av data är symmetrisk. Uppsättningar av data som inte är symmetriska sägs vara asymmetriska. Måttet på hur asymmetrisk en distribution kan kallas skevhet.

Medel, median och läge är alla mått på mitten av en uppsättning data. Datas otydlighet kan bestämmas av hur dessa mängder är relaterade till varandra.

Hängs åt höger

Data som är sneda åt höger har en lång svans som sträcker sig till höger. Ett alternativt sätt att prata om en datauppsättning som är sned till höger är att säga att den är positivt skev. I denna situation är medelvärdet och medianen båda större än läget. Som en allmän regel är det mesta av tiden för data som är sned åt höger, medelvärdet större än median. Sammanfattningsvis för en datamängd som är sned åt höger:

Alltid: betyder större än läget
Alltid: median större än läget
För det mesta: betyder större än median

Skränkt till vänster

Situationen vänder sig själva när vi hanterar data som är sned åt vänster. Data som är sneda åt vänster har en lång svans som sträcker sig till vänster. Ett alternativt sätt att prata om en datauppsättning som är sned åt vänster är att säga att den är negativt sned. I denna situation är medelvärdet och medianen båda mindre än läget. Som en allmän regel är det mesta av tiden för data som är sned åt vänster, medelvärdet mindre än median. Sammanfattningsvis för en datamängd som är sned åt vänster:

Alltid: betyder mindre än läget
Alltid: median mindre än läget
För det mesta: betyder mindre än median

Åtgärder för skevhet

Det är en sak att titta på två uppsättningar data och bestämma att den ena är symmetrisk medan den andra är asymmetrisk. Det är en annan att titta på två uppsättningar asymmetriska data och säga att den ena är mer sned än den andra. Det kan vara mycket subjektivt att avgöra vilket som är mer sned genom att bara titta på grafen för distributionen. Det är därför det finns sätt att numeriskt beräkna mått på skevhet.

Ett mått på skevhet, kallad Pearsons första skevhetskoefficient, är att subtrahera medelvärdet från läget och sedan dela denna skillnad med standardavvikelsen för data. Anledningen till att dela skillnaden är så att vi har en måttlös kvantitet. Detta förklarar varför data som är sned åt höger har en positiv skevhet. Om datauppsättningen är sned åt höger är medelvärdet större än läget, och att subtrahera läget från medelvärdet ger ett positivt tal. Ett liknande argument förklarar varför data som är sned åt vänster har negativa skevheter.

Pearsons andra skevhetskoefficient används också för att mäta en datamängds asymmetri. För denna kvantitet drar vi bort läget från medianen, multiplicerar detta nummer med tre och delar sedan med standardavvikelsen.

Användningar av skev data

Skräpdata uppstår ganska naturligt i olika situationer. Inkomsterna är sneda åt höger eftersom även bara ett fåtal personer som tjänar miljoner dollar kan påverka medelvärdet i hög grad, och det finns inga negativa inkomster. På liknande sätt är data som involverar en produkts livslängd, till exempel ett glödlampamärke, snett åt höger. Här är den minsta som en livstid kan vara noll, och långvariga glödlampor ger data en positiv skevhet.

Vetenskap