Många gånger vill forskare veta svaren på frågor som är stora i omfattning. Till exempel:
Sådana frågor är enorma i den meningen att de kräver att vi håller reda på miljontals individer.
Statistik förenklar problemen genom att använda en teknik som kallas sampling. Genom att utföra ett statistiskt prov kan vår arbetsbelastning minska enormt. I stället för att spåra beteendet hos miljarder eller miljoner behöver vi bara undersöka de tusentals eller hundratals. Som vi ser kommer denna förenkling till ett pris.
Befolkningen i en statistisk studie är det vi försöker ta reda på något om. Det består av alla individer som undersöks. En befolkning kan verkligen vara vad som helst. Kalifornier, karibiska, datorer, bilar eller län kan alla betraktas som populationer, beroende på den statistiska frågan. Även om de flesta populationer som forskas är stora behöver de inte nödvändigtvis vara det.
En strategi för att forska befolkningen är att göra en folkräkning. I en folkräkning undersöker vi varje medlem av befolkningen i vår studie. Ett främst exempel på detta är den amerikanska folkräkningen. Census Bureau skickar vart tionde år ett frågeformulär till alla i landet. De som inte returnerar formuläret besöks av folkräkningsarbetare
Folkräkningar är svåra. De är vanligtvis dyra med avseende på tid och resurser. Utöver detta är det svårt att garantera att alla i befolkningen har nåtts. Andra befolkningar är ännu svårare att göra en folkräkning med. Om vi ville studera vanor hos herrelösa hundar i delstaten New York, lyckades vi lycka till Allt av de kortvariga hundarna.
Eftersom det normalt är antingen omöjligt eller opraktiskt att spåra upp varje medlem i en befolkning är nästa alternativ att ta prov på befolkningen. Ett prov är varje delmängd av en befolkning, så dess storlek kan vara liten eller stor. Vi vill att ett prov är tillräckligt litet för att kunna hanteras av vår datorkraft, men ändå tillräckligt stort för att ge oss statistiskt signifikanta resultat.
Om ett valfråga försöker bestämma väljarens nöjdhet med kongressen, och dess urval är en, kommer resultaten att bli meningslösa (men lätta att få). Å andra sidan kommer att be miljoner människor konsumera för många resurser. För att uppnå en balans har enkäter av denna typ vanligtvis provstorlekar på cirka 1000.
Men att ha rätt provstorlek räcker inte för att säkerställa goda resultat. Vi vill ha ett urval som är representativt för befolkningen. Anta att vi vill ta reda på hur många böcker den genomsnittliga amerikanen läser årligen. Vi ber 2000 högskolestudenter att hålla reda på vad de läser under året och sedan kolla tillbaka med dem efter att ett år har gått. Vi finner att det genomsnittliga antalet lästa böcker är 12 och drar sedan slutsatsen att den genomsnittliga amerikanen läser 12 böcker per år.
Problemet med detta scenario är med urvalet. En majoritet av studenterna är mellan 18-25 år och krävs av sina instruktörer att läsa läroböcker och romaner. Detta är en dålig representation av den genomsnittliga amerikanen. Ett bra prov skulle innehålla människor i olika åldrar, från alla samhällsskikt och från olika regioner i landet. För att få ett sådant prov skulle vi behöva komponera det slumpmässigt så att alla amerikaner har lika stor sannolikhet att vara i urvalet.
Guldstandarden för statistiska experiment är det enkla slumpmässiga provet. I ett sådant provstorlek n individer, varje medlem av befolkningen har samma sannolikhet att bli vald till urvalet och varje grupp av n individer har samma sannolikhet att bli utvalda. Det finns olika sätt att ta prov på en befolkning. Några av de vanligaste är:
Som ordspråket säger, "väl börjat är halvt gjort." För att säkerställa att våra statistiska studier och experiment har bra resultat, måste vi planera och starta dem noggrant. Det är lätt att komma med dåliga statistiska prover. Bra enkla slumpmässiga prover kräver lite arbete att få. Om våra uppgifter har erhållits på ett slumpmässigt och kavalt sätt, oavsett hur sofistikerad vår analys kommer statistiska tekniker inte att ge oss några värdefulla slutsatser.