Test for sygdomme
Formål
Skal udfyldes…
Sensitivitet og specificitet
Når man tester for en sygdom, så vil man måske umiddelbart tænke, at hvis testen er positiv, så er man syg, og hvis testen er negativ, så er man rask. Men det behøver faktisk ikke at være tilfældet. Man kan godt være rask, selvom testen er positiv (det kalder man for en falsk positiv), og man kan godt være syg, som testen er negativ (det kalder man for en falsk negativ). Det er fordi, at der ikke findes nogen test, som er helt perfekt!
Det vil sige, at resultatet af en test vil falde i én af følgende fire kategorier:
Syg | Rask | |
---|---|---|
Positiv test | Sand positiv (SP) | Falsk positiv (FP) |
Negativ test | Falsk negativ (FN) | Sand negativ (SN) |
Det er klart, at man selvfølgelig helst vil have en test, hvor flest mulige lander i diagonalen med sande positiver og sande negativer.
En god test skal derfor have følgende egenskaber:
- Hvis testen anvendes på en syg person, så skal sandsynligheden for at testen bliver positiv være høj.
- Hvis testen anvendes på en rask person, så skal sandsynligheden for at testen bliver negativ være høj.
Disse to betingede sandsynligheder kaldes for henholdsvis sensitivitet og specificitet og kan skrives matematisk sådan her:
\[ \mathrm{sensitivitet } = P(\textrm{positiv test } | \textrm{ syg}) \] og
\[ \mathrm{specificitet } = P(\textrm{negativ test } | \textrm{ rask}) \]
Det er klart, at hvis en test skal være god, så ønsker vi, at både sensitiviteten og specificiteten er tæt på 100%.
Prævalens
Blandt alle dem, vi tester, vil en vis andel i virkeligheden være syge. Det kaldes for sygdommens prævalens. Det vil sige:
\[ \mathrm{prævalens } = P(\textrm{syg}) \]
Positiv og negativ prædiktiv værdi
Hvis du bliver testet for en sygdom, så vil du enten stå med en positiv eller en negativ test, og du er dybest set slet ikke interesseret i ovenstående sandsynligheder (sensitivitet, specificitet og prævalens)! Du vil i stedet stille dig selv ét af følgende to spørgsmål:
- Min test er positiv - hvad er sandsygligheden for, at jeg rent faktisk er syg?
eller
- Min test er negativ - hvad er sandsygligheden for, at jeg rent faktisk er rask?
Du vil jo gerne undgå, at din test enten er falsk positiv eller falsk negativ.
Ovenstående sandsynligheder kaldes for den positive prædiktive værdi og den negative prædiktive værdi. Skrevet som en betinget sandsynlighed bliver det:
\[ \text{positiv prædiktiv værdi } = P(\textrm{syg } | \textrm{ positiv test}) \] og
\[ \text{negativ prædiktiv værdi } = P(\textrm{rask } | \textrm{ negativ test}) \]
Du undrer dig måske over, at den positive prædiktive værdi er så forholdsvis lav (36.1%), mens den negative prædiktive værdi er så tæt på 100% (99.2%). Men det er fordi, at den positive og negative prædiktive værdi ikke kun afhænger af testens sensitivitet og specificitet, men også af prævalensen af sygdommen (i den gruppe vi tester iblandt). Hvis vi ser på, hvad vi ved, inden vi overhovedet begynder at teste (det kaldes for prior sandsynligheder), så er det følgende:
\[P(\textrm{syg})= 5 \%\]
og dermed også at
\[P(\textrm{rask})= 95 \%\] Det vil sige, at inden vi har taget testen, er vi ret sikre på, at vi er raske. Får vi så (som forventet) en negativ test, så bliver vi bare endnu mere sikre på, at vi er raske (svarende til en negativ prædiktiv værdi på 99.2%). Får vi derimod en positiv test, så bliver vi lidt mere sikre på, at vi er syge. Vi opjusterer altså fra en prior sandsynlighed på 5% til en positiv prædiktiv værdi på 36.1%. Men fordi at sandsynligheden for at være syg på forhånden er så lille, så vil en positiv test stadig efterlade en vis chance for, at vi rent faktisk ikke er syge alligevel!
Det virker måske underligt, men forestil dig, at vi laver graviditetstest blandt mænd. Da ingen test er perfekt (sensitivitet og specificitet vil altid være under 100%), så vil der før eller siden ske det, at en af mændene tester positiv. Men her er det ret tydeligt, at prævalensen (det vil sige sandsynligheden for at være gravid) blandt dem vi tester (det vil sige mænd) er 0%. Derfor bliver den positive prædiktive værdi også 0%, selvom testen er positiv! Men det er selvfølgelig også lidt åndsvagt at lave graviditetstest blandt mænd…!
Hvis vi tester en hel befolkning for eksempelvis corona, så vil prævalensen være forholdsvis lav. Tester vi derimod kun blandt personer, som har symptomer på corona, så vil prævalens straks være højere. Vi skal nu undersøge, hvilken betydning det har på den positive og negative prædiktive værdi.
Bayes formel (mest for A-niveau)
Hvis du har læst med her (link til Allans note om Bayes klassificer - eller måske vi skal have splittet de generelle afsnit om betingede sandsynligheder og Bayes formel ud i en note for sig selv?) så ved du, at en betinget sandsynlighed er defineret på følgende måde:
\[ P(A | B) = \frac{P(A,B)}{P(B)} \]
(er det ok at skrive \(A,B\) i stedet for fællesmængden - der er alligevel ingen mængdelære tilbage i gymnasiet?). Og du har lært, at hvis man bruger det lidt smart, så kan man bevise Bayes’ sætning, som siger, at
\[ P(A | B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]
Det vil vi nu udnytte til at opskrive et udtryk for den positive prædiktive værdi:
\[ P(\text{syg } | \text{ positiv test}) = \frac{P(\text{positiv test } | \text{ syg}) \cdot P(\text{syg})}{P(\text{positiv test})} \]
Udnytter vi definitionen af sensitivitet og prævalens, så kan vi omskrive tælleren til
\[ P(\text{syg } | \text{ positiv test}) = \frac{\text{sensitivitet} \cdot \text{prævalens}}{P(\text{positiv test})} \tag{1}\]
Nu mangler vi at finde et udtryk for nævneren. Der må gælde, at
\[ P(\text{positiv test}) = P(\text{positiv test, syg}) + P(\text{positiv test, rask}) \] Bruger vi definitionen på betingede sandsynligheder, kan vi skrive ovenstående som
\[ P(\text{positiv test}) = P(\text{positiv test } | \text{ syg} ) \cdot P(\text{syg}) + P(\text{positiv test } | \text{ rask}) \cdot P(\text{rask}) \]
Vi udnytter nu, at \[P(\text{rask})+P(\text{syg})=1\] og dermed at \[P(\text{rask}) = 1- P(\text{syg})\] Tilsvarende er også \[P(\text{positiv test } | \text{rask}) = 1-P(\text{syg test } | \text{rask})\] Derfor er
\[ P(\text{positiv test}) = P(\text{positiv test } | \text{ syg} ) \cdot P(\text{syg}) + \left ( 1 - P(\text{negativ test } | \text{ rask}) \right ) \cdot \left ( 1- P(\text{syg}) \right ) \]
Men nu er sandsynligheden for at teste positiv alene udtrykt ved hjælp af sensitiviteten, specificiteten og prævalensen:
\[ P(\text{positiv test}) = \text{sensitivitet} \cdot \text{prævalens} + \left ( 1 - \text{specificitet} \right ) \cdot \left ( 1- \text{prævalens} \right ) \] Indsætter vi dette i (1), får vi
\[ P(\text{syg } | \text{ positiv test}) = \frac{\text{sensitivitet} \cdot \text{prævalens}}{\text{sensitivitet} \cdot \text{prævalens} + \left ( 1 - \text{specificitet} \right ) \cdot \left ( 1- \text{prævalens} \right )} \tag{2}\]
Bruger vi denne formel til at udregne den positive prædiktive værdi i det tilfælde, hvor prævalensen er 5%, sensitiviteten er 86% og specificiteten er 92%, får vi
\[ P(\text{syg } | \text{ positiv test}) = \frac{0.86 \cdot 0.05}{0.86 \cdot 0.05 + (1-0.92) \cdot (1-0.05)} = 0.361=36.1 \% \]
Det skulle meget gerne stemme med det, du har fået i opgave 4 (men hvor den positive prædiktive værdi blev beregner på baggrund af tabelværdier).