Statistisk urval används ganska ofta i statistik. I denna process syftar vi till att bestämma något om en befolkning. Eftersom populationer vanligen är stora i storlek bildar vi ett statistiskt prov genom att välja en delmängd av befolkningen som har en förutbestämd storlek. Genom att studera urvalet kan vi använda inferentialstatistik för att bestämma något om befolkningen.
Ett statistiskt urval av storlek n involverar en enda grupp av n individer eller individer som har valts slumpmässigt från befolkningen. Nära besläktat med begreppet ett statistiskt prov är en provtagningsfördelning.
En provtagningsfördelning inträffar när vi bildar mer än ett enkelt slumpmässigt urval av samma storlek från en given population. Dessa prover anses vara oberoende av varandra. Så om en person är i ett prov, har det samma sannolikhet att vara i nästa prov som tas.
Vi beräknar en viss statistik för varje prov. Detta kan vara ett provmedelvärde, en provvarians eller en provandel. Eftersom en statistik beror på det prov som vi har kommer varje prov typiskt att producera ett annat värde för statistiken av intresse. Området för de värden som har producerats är det som ger oss vår provtagningsfördelning.
Som exempel kommer vi att ta hänsyn till provtagningsfördelningen för medelvärdet. Medeltalet för en population är en parameter som vanligtvis är okänd. Om vi väljer ett prov med storlek 100, beräknas medelvärdet för detta prov enkelt genom att lägga till alla värden tillsammans och sedan dela med det totala antalet datapunkter, i detta fall 100. Ett prov med storlek 100 kan ge oss ett medelvärde av 50. Ett annat sådant prov kan ha ett medelvärde av 49. Ett annat 51 och ett annat prov kan ha medelvärde på 50,5.
Distributionen av dessa provmedel ger oss en provtagningsfördelning. Vi skulle vilja överväga mer än bara fyra provmedel som vi har gjort ovan. Med ytterligare flera provmedel skulle vi ha en god uppfattning om formen på provtagningsfördelningen.
Provtagningsfördelningar kan verka ganska abstrakta och teoretiska. Det finns dock några mycket viktiga konsekvenser av att använda dessa. En av de viktigaste fördelarna är att vi eliminerar variationen som finns i statistiken.
Anta till exempel att vi börjar med en population med ett medelvärde på μ och standardavvikelse för σ. Standardavvikelsen ger oss en mätning av hur spridd distributionen är. Vi kommer att jämföra detta med en provtagningsfördelning som erhålls genom att skapa enkla slumpmässiga prover av storlek n. Provtagningsfördelningen för medelvärdet kommer fortfarande att ha ett medelvärde på μ, men standardavvikelsen är annorlunda. Standardavvikelsen för en provtagningsfördelning blir σ / √ n.
Således har vi följande
I praktiken av statistik bildar vi sällan provtagningsfördelningar. Istället behandlar vi statistik som härrör från ett enkelt slumpmässigt urval av storlek n som om de är en punkt längs en motsvarande provtagningsfördelning. Detta betonar återigen varför vi vill ha relativt stora provstorlekar. Ju större provstorlek, desto mindre variation kommer vi att få i vår statistik.
Observera att vi, utom centrum och spridning, inte kan säga något om formen på vår provtagningsfördelning. Det visar sig att under vissa ganska breda förhållanden kan Central Limit Theorem användas för att berätta något ganska fantastiskt om formen på en provtagningsfördelning.