Pålitlighet är den grad till vilken ett mätinstrument ger samma resultat varje gång det används, förutsatt att den underliggande saken som mäts inte förändras.
Föreställ dig att du försöker bedöma tillförlitligheten för en termometer i ditt hem. Om temperaturen i ett rum förblir densamma ger alltid en pålitlig termometer samma avläsning. En termometer som saknar tillförlitlighet skulle ändras även om temperaturen inte gör det. Observera dock att termometern inte behöver vara exakt för att vara pålitlig. Det kan till exempel alltid registrera tre grader för högt. Dess grad av tillförlitlighet har i stället att göra med förutsägbarheten i dess relation till vad som testas.
För att bedöma tillförlitligheten måste den som mäts mätas mer än en gång. Om du till exempel ville mäta längden på en soffa för att se till att den passade genom en dörr, kan du mäta den två gånger. Om du får en identisk mätning två gånger kan du vara säker på att du mätde pålitligt.
Det finns fyra procedurer för att bedöma tillförlitligheten hos ett test. (Här avser termen "test" en grupp uttalanden i ett frågeformulär, en observatørs kvantitativa eller kvalitativa utvärdering eller en kombination av de två.)
Här ges samma test två eller flera gånger. Till exempel kan du skapa ett frågeformulär med en uppsättning av tio uttalanden för att bedöma förtroende. Dessa tio uttalanden ges sedan till ett ämne två gånger vid två olika tidpunkter. Om respondenten ger liknande svar båda gångerna, kan du anta de frågor som bedöms ämnets svar på ett tillförlitligt sätt.
En fördel med denna metod är att endast ett test behöver utvecklas för denna procedur. Det finns emellertid några nackdelar med testet om testet. Händelser kan inträffa mellan testtider som påverkar respondenternas svar; svar kan förändras över tiden helt enkelt för att människor förändras och växer med tiden; och ämnet kan anpassa sig till testet för andra gången, tänka djupare över frågorna och omvärdera deras svar. I exemplet ovan kan till exempel vissa respondenter ha blivit mer självsäkra mellan den första och den andra testsessionen, vilket skulle göra det svårare att tolka resultaten av testförfarandet.
I proceduren för alternativa former (även kallad pålitlighet för parallella former) ges två test. Till exempel kan du skapa två uppsättningar med fem uttalanden som mäter förtroende. Ämnen skulle bli ombedda att ta vart och ett av de fem uttalande enkäterna. Om personen ger liknande svar för båda testerna, kan du anta att du mätte konceptet pålitligt. En fördel är att cueing kommer att vara mindre av en faktor eftersom de två testerna är olika. Det är dock viktigt att se till att båda alternativa versionerna av testet verkligen mäter samma sak.
I denna procedur ges ett enda test en gång. Ett betyg tilldelas varje hälft separat och betyg jämförs från varje hälft. Till exempel kan du ha en uppsättning av tio uttalanden i ett frågeformulär för att bedöma förtroende. De svarande tar testet och frågorna delas sedan upp i två deltester om fem artiklar vardera. Om poängen på första halvlek speglar poängen på andra halvlek kan du anta att testet mätte konceptet pålitligt. På plussidan spelas inte historia, mognad och köning. Poängsättningen kan dock variera mycket beroende på hur testet delas upp i halvor.
Här administreras samma test en gång, och poängen baseras på genomsnittlig likhet mellan svar. Till exempel, i ett frågeformulär med tio uttalanden för att mäta förtroende, kan varje svar ses som ett sub-test med en uttalande. Likheten i svar på var och en av de tio påståenden används för att bedöma tillförlitligheten. Om svaranden inte svarar på alla tio påståenden på liknande sätt kan man anta att testet inte är tillförlitligt. Ett sätt som forskare kan bedöma intern konsistens är att använda statistisk programvara för att beräkna Cronbachs alfa.
Med det interna konsistensförfarandet är historia, mognad och cueing inte en övervägande. Antalet påståenden i testet kan emellertid påverka bedömningen av tillförlitlighet när den utvärderas internt.