Hjem » Epidemiologi og statistik » Validitet og reliabilitet
Validitet og reliabilitet
Al medicins store problem er at finde ud af, hvad patienter fejler. Til det formål har vi et væld af diagnostiske begreber, et væld af spørgsmål og undersøgelser. Men hvor gode er vi faktisk til at beskrive det, vi gerne vil beskrive?
For at kunne diskutere det spørgsmål har man også brug for ord. Altså ord til at beskrive, hvor gode ens beskrivelser er til at beskrive. De ord er validitet og reliabilitet. Eller sagt med andre ord: Validitet og reliabilitet kan vi bruge til at vurdere, hvor gode vi er til at beskrive det, vi gerne vil beskrive.
Definitioner, diagnostiske kriterier og undersøgelser
Man kunne forestille sig en verden, hvor der ikke fandtes lægevidenskab eller kvaksalvere, og hvor man ikke havde den fjerneste idé om, hvordan man skulle beskrive en sygdomstilstand. I den verden ville sygdom stadig forekomme: Folk ville få perforerede appendicitter, multipel sklerose, bipolar lidelse, astma og hjertesvigt.
Hvis man i denne verden forestillede sig, at man pludselig skulle opfinde et sprog for at kunne beskrive alle disse tilstande, ville man stå med den udfordring, at man gerne ville ramme rigtigt.
Fordi man gerne vil ramme rigtigt, bliver man enige om en definition, som man mener dækker over den virkelighed, man gerne vil beskrive. Man har altså brug for nogle begreber, og man har brug for, at de begreber er valide. Samtidig bliver man enig om nogle diagnostiske kriterier, der, når de er opfyldt, gør, at en patient opfylder definitionen. Man finder også nogle undersøgelser og test, der er med til at afklare, om de diagnostiske kriterier er opfyldt.
Alle disse definitioner, diagnostiske kriterier, undersøgelser og tests skal gerne beskrive det, de er sat i verden for at beskrive. De skal med andre ord være valide og gerne også reliable.
Hvad er validitet?
Validitet er en definitions, en undersøgelses eller en tests evne til at beskrive præcist eller akkurat. Man kan ofte se det illustreret ved en skydeskive, hvor bull’s eye er det, man gerne vil beskrive, og hvor man kan ramme mere eller mindre præcist. Og her er en skydeskive til illustration:
En valid definition beskriver for eksempel præcist, hvad man taler om. Et sæt valide diagnostiske kriterier sørger præcist for, at definitionen på en diagnose (og ikke alle mulige andre diagnoser) er opfyldt. Og en valid blodprøve beskriver præcist den tilstand, den skal beskrive (og ikke alle mulige andre tilstande).
Tre eksempler fra kardiologien, kirurgien og igen fra kardiologien:
- Hvis man læser ESC, DSC, UpToDate og Medicinsk Kompendium, så har de fire kilder fire lidt forskellige definitioner af akut hjertesvigt. Ude i den virkelige verden findes der selvfølgelig patienter med hjertesvigt, og den tilstand vil man gerne ramme bull’s eye med en valid definition. Men man er tilsyneladende ikke helt enige om det.
- Kirurgerne har vedtaget nogle diagnostiske kriterier for akut pankreatitis. Ude i den virkelige verden findes der selvfølgelig patienter med pankreatitis, og hvis man tager pankreas ud under sektion af patient, der er død af akut pankreatitis, vil man også finde patologiske forandringer. Man vil med de diagnostiske kriterier gerne sikre sig, at man opfylder sin definition af akut pankreatitis og man vil også gerne sikre sig, at man beskriver alle patienter med akut pankreatitis.
- I kardiologien har man lang tid diskuteret brugen af Pro-BNP til diagnostik af hjertesvigt. Igen findes der jo patienter med hjertesvigt, men det er et spørgsmål, om Pro-BNP faktisk kan bruges til at finde disse patienter, altså om Pro-BNP er et validt, et præcist, mål for hjertesvigt, eller om Pro-BNP ikke rigtig kan bruges til at beskrive og diagnosticere hjertesvigt.
Sammenhængen mellem validitet, sensitivitet og specificitet
Man kan bruge mange forskellige ord til at beskrive graden af validitet. Nogle af de ord er sensitivitet og specificitet. Mere om det her.
En test, der har en overmåde lav grad af sensitivitet, det vil sige ikke finder de sandt positive, og en overmåde lav grad af specificitet, det vil sige ikke er i stand til at finde de sandt negative, er en test med meget lav validitet. Testen er så at sige ikke brugbar til at udtale sig om sygdom.
Omvendt vil en test, der er 100 % sensitiv og 100 % specifik være en fuldstændigt valid test. Når man får et positivt testresultat med sådan en test, så ved man med sikkerhed, at man er syg. Det vil altså være en test
Hvad er reliabilitet
Reliabilitet betegner pålideligheden eller nøjagtigheden af et begreb, en undersøgelse eller en test, altså evnen til under de samme forudsætninger at producere konsistente resultater. Hvor validitet handler om at ramme bull’s eye i en skydeskive, så handler reliabilitet om at gøre det igen og igen og igen.
Reliabilitet er på den måde relateret til det statistiske begreb spredning, og en test med høj reliabilitet har meget lav spredning i sine resultater.
Herunder en skydeskive til illustration:
Et par eksempler:
- Alle blodprøver er spredte omkring et gennemsnit. Det betyder, at tager man to blodprøver fra samme patient på samme tidspunkt, så vil de ikke være helt ens, men fordele sig omkring et gennemsnit (som man så formoder er den sande værdi i patientens blod). CRP målt i Region Midtjylland har for eksempel 14,4 %’s usikkerhed på resultatet og læg dertil biologisk variation, så skal forskellen mellem to målinger være 119 % for at være statistisk signifikant.
- I onkologien er performance status (PS) et hyppigt brugt værktøj til vurdering af patientens evne til at foretage daglige gøremål og være fysisk aktiv. Det er en vurdering foretaget af klinikeren og der er ikke perfekt reliabilitet, forstået på den måde, at to klinikere der vurderer den samme patient ikke altid er enige om, hvilken gruppe af performance status patienten tilhører.
Illustration af validitet og reliabilitet
En god test er både valid og reliabel, og det kan man illustrere ved nedenstående fire skydeskiver.
Testen til venstre på skive 1 er hverken valid eller reliabel. Hvis man får et testresultat fra den test, kan man ikke regne med, at man rammer midten af skiven (og den skyder også helt ved siden af), og hvis man gentager testen får man et helt andet resultat. Testen er ubrugelig.
Skive 2 er valid, i gennemsnit rammer man rigtigt, men for det enkelte testresultat er der meget stor spredning omkring midten af skiven. Gentager man testen (på samme patient under de samme omstændigheder) kan man risikere et helt andet resultat, ikke fordi testen ikke er valid, men fordi tilfældigheder gør, at man ikke kan få et nøjagtigt resultat.
Skive 3 viser en reliabel test. Når man gentager testen får man omtrentligt det samme resultat igen og igen. Imidlertid er testen ikke valid, den måler ikke det, man gerne vil måle. Man kunne måske bruge eksemplet ferritin. Det er en rimeligt reliabel test, men i mange tilfælde vil den ikke måle jernlagre (bull’s eye), men fungere som akutfasereaktant (og derved måle noget helt andet).
Skive 4 er en reliabel og valid test. Den rammer midten af skiven, og den gør det igen og igen og igen.
Kilder
Analysefortegnelsen, Region Midtjylland om P-C-reaktivt protein (CRP). På analysefortegnelsen.dk. Tilgået d. 13/4-2024.
Analysefortegnelsen, Region Midtjylland om P-ferritin. På analysefortegnelsen.dk. Tilgået d. 14/4-2024.