Hur många kalorier ät var och en av oss till frukost? Hur långt hemifrån reste alla idag? Hur stor är platsen vi kallar hem? Hur många andra kallar det hem? För att känna till all denna information krävs vissa verktyg och sätt att tänka på. Den matematiska vetenskapen som kallas statistik är det som hjälper oss att hantera denna informationsöverbelastning.
Statistik är studien av numerisk information, kallad data. Statistiker förvärvar, organiserar och analyserar data. Varje del av denna process granskas också. Statistikens tekniker tillämpas på en mängd andra kunskapsområden. Nedan följer en introduktion till några av de viktigaste ämnena i hela statistiken.
Ett av statistikens återkommande teman är att vi kan säga något om en stor grupp baserat på studien av en relativt liten del av den gruppen. Gruppen som helhet kallas befolkningen. Den del av gruppen som vi studerar är provet.
Som ett exempel på detta, anta att vi ville veta den genomsnittliga höjden för människor som bor i USA. Vi kan försöka mäta över 300 miljoner människor, men det skulle vara omöjligt. Det skulle vara en logistisk mardröm att utföra mätningarna på ett sådant sätt att ingen missades och ingen räknades två gånger.
På grund av att det är omöjligt att mäta alla i USA kan vi istället använda statistik. I stället för att hitta höjden för alla i befolkningen tar vi ett statistiskt urval på några tusen. Om vi har provat populationen korrekt, kommer provets genomsnittliga höjd att vara mycket nära befolkningens genomsnittliga höjd.
För att dra bra slutsatser behöver vi bra data att arbeta med. Det sätt vi provar på en population för att få dessa data bör alltid granskas. Vilket slags prov vi använder beror på vilken fråga vi ställer om befolkningen. De mest använda proverna är:
Det är lika viktigt att veta hur mätningen av provet utförs. För att gå tillbaka till exemplet ovan, hur får vi höjderna för de i vårt prov?
Var och en av dessa sätt att få informationen har sina fördelar och nackdelar. Alla som använder uppgifterna från denna studie vill veta hur de erhölls.
Ibland finns det en mängd data, och vi kan bokstavligen gå vilse i alla detaljer. Det är svårt att se skogen för träden. Det är därför det är viktigt att hålla våra uppgifter välorganiserade. Noggrann organisering och grafiska visningar av data hjälper oss att upptäcka mönster och trender innan vi faktiskt gör några beräkningar.
Eftersom det sätt som vi grafiskt presenterar våra data beror på olika faktorer. Vanliga diagram är:
Förutom dessa välkända grafer finns det andra som används i specialiserade situationer.
Ett sätt att analysera data kallas beskrivande statistik. Här är målet att beräkna mängder som beskriver våra data. Siffror som kallas medelvärdet, median och läge används alla för att ange datorns medelvärde eller centrum. Räckvidden och standardavvikelsen används för att säga hur spridd informationen är. Mer komplicerade tekniker, såsom korrelation och regression, beskriver data som är ihopkopplade.
När vi börjar med ett urval och sedan försöker dra slutsatsen om befolkningen använder vi inferensstatistik. När man arbetar med detta statistikområde uppstår ämnet för hypotest. Här ser vi den vetenskapliga karaktären hos ämnet statistik, när vi anger en hypotes, och sedan använder statistiska verktyg med vårt prov för att bestämma sannolikheten för att vi behöver avvisa hypotesen eller inte. Denna förklaring är egentligen bara att skrapa ytan på denna mycket användbara del av statistik.
Det är ingen överdrift att säga att statistikverktygen används av nästan alla vetenskapsområden. Här är några områden som förlitar sig starkt på statistik:
Även om vissa tänker på statistik som en gren av matematik, är det bättre att tänka på det som en disciplin som bygger på matematik. Specifikt är statistik uppbyggd från matematikområdet som kallas sannolikhet. Sannolikhet ger oss ett sätt att avgöra hur troligt en händelse ska inträffa. Det ger oss också ett sätt att prata om slumpmässighet. Detta är nyckeln till statistik eftersom det typiska urvalet måste väljas slumpmässigt från befolkningen.
Sannolikheten studerades först på 1700-talet av matematiker som Pascal och Fermat. 1700-talet markerade också början på statistik. Statistik fortsatte att växa från sina sannolikhetsrötter och började verkligen på 1800-talet. Idag fortsätter den teoretiska räckvidden att utvidgas i den så kallade matematiska statistiken.