Den centrala gränssatsen är ett resultat från sannolikhetsteorin. Denna sats visas på ett antal platser inom statistikområdet. Även om den centrala gränssteoremet kan verka abstrakt och sakna någon tillämpning, är denna sats faktiskt ganska viktig för praktiken av statistik.
Så vad är exakt vikten av den centrala begränsningssatsen? Det har allt att göra med fördelningen av vår befolkning. Denna sats ger dig möjlighet att förenkla problem i statistik genom att låta dig arbeta med en distribution som är ungefär normal.
Uttalandet av den centrala gränssteoremet kan verka ganska tekniskt men kan förstås om vi tänker igenom följande steg. Vi börjar med ett enkelt slumpmässigt prov med n individer från en befolkning av intresse. Från det här provet kan vi enkelt bilda ett urval som motsvarar medelvärdet för vilken mätning vi är nyfiken på i vår befolkning.
En provtagningsfördelning för provmedlet produceras genom att upprepade gånger välja enkla slumpmässiga prover från samma population och av samma storlek och sedan beräkna provmedlet för vart och ett av dessa prover. Dessa prover ska anses vara oberoende av varandra.
Den centrala begränsningsteoremet rör provtagningsfördelningen av provmedlen. Vi kan fråga om den övergripande formen för provtagningsfördelningen. Den centrala gränssatsen säger att denna provtagningsfördelning är ungefär normal-allmänt känd som en klockkurva. Denna approximation förbättras när vi ökar storleken på de enkla slumpmässiga prover som används för att producera samplingsfördelningen.
Det finns en mycket överraskande funktion när det gäller den centrala gränssatsen. Det häpnadsväckande faktum är att denna sats säger att en normal distribution uppstår oavsett den initiala distributionen. Även om vår befolkning har en sned fördelning, som inträffar när vi undersöker saker som inkomster eller människors vikt, kommer en provtagningsfördelning för ett prov med en tillräckligt stor provstorlek att vara normal.
Det oväntade utseendet på en normalfördelning från en befolkningsfördelning som är skev (till och med ganska kraftigt skev) har några mycket viktiga tillämpningar i statistisk praxis. Många metoder i statistik, till exempel sådana som involverar hypotesundersökningar eller konfidensintervall, gör vissa antaganden om befolkningen som uppgifterna erhölls från. Ett antagande som inledningsvis görs i en statistikbana är att befolkningarna som vi arbetar med normalt fördelas.
Antagandet att data kommer från en normal distribution förenklar frågorna men verkar lite orealistiska. Bara lite arbete med data från verkliga världen visar att outliers, skevhet, flera toppar och asymmetri dyker upp ganska rutinmässigt. Vi kan komma runt problemet med data från en befolkning som inte är normalt. Användningen av en lämplig provstorlek och den centrala gränssatsen hjälper oss att komma runt problemet med data från populationer som inte är normala.
Så även om vi kanske inte känner till formen på distributionen där våra data kommer från, säger den centrala gränssatsen att vi kan behandla provtagningsfördelningen som om den var normal. Naturligtvis, för att slutsatserna från satsen ska hålla, behöver vi naturligtvis en provstorlek som är tillräckligt stor. Undersökande dataanalys kan hjälpa oss att avgöra hur stort ett prov är nödvändigt för en given situation.