Test for sygdomme

B-niveau
A-niveau

Forløbet kræver kendskab til:

  • Sandsynlighedsregning
  • Betingede sandsynligheder

Tidsforbrug: Ca. 2 x 90 minutter.

Formål

Skal udfyldes…

Sensitivitet og specificitet

Når man tester for en sygdom, så vil man måske umiddelbart tænke, at hvis testen er positiv, så er man syg, og hvis testen er negativ, så er man rask. Men det behøver faktisk ikke at være tilfældet. Man kan godt være rask, selvom testen er positiv (det kalder man for en falsk positiv), og man kan godt være syg, som testen er negativ (det kalder man for en falsk negativ). Det er fordi, at der ikke findes nogen test, som er helt perfekt!

Det vil sige, at resultatet af en test vil falde i én af følgende fire kategorier:

Syg Rask
Positiv test Sand positiv (SP) Falsk positiv (FP)
Negativ test Falsk negativ (FN) Sand negativ (SN)

Det er klart, at man selvfølgelig helst vil have en test, hvor flest mulige lander i diagonalen med sande positiver og sande negativer.

En god test skal derfor have følgende egenskaber:

  • Hvis testen anvendes på en syg person, så skal sandsynligheden for at testen bliver positiv være høj.
  • Hvis testen anvendes på en rask person, så skal sandsynligheden for at testen bliver negativ være høj.

Disse to betingede sandsynligheder kaldes for henholdsvis sensitivitet og specificitet og kan skrives matematisk sådan her:

\[ \mathrm{sensitivitet } = P(\textrm{positiv test } | \textrm{ syg}) \] og

\[ \mathrm{specificitet } = P(\textrm{negativ test } | \textrm{ rask}) \]

Vælg en sygdom som du vil arbejde med (eller som din lærer har bestemt, at du skal arbejde med!). Det kan for eksempel være corona, klamydia, RS virus eller influenza.

  • Undersøg sensitivitet og specificitet for forskellige tests for den sygdom, som du har valgt.
  • Kan du lave en test hvor sensitiviteten er 100% (du behøver ikke at bekymre dig om specificiteten)?
  • Kan du lave en test hvor specificiteten er 100% (du behøver ikke at bekymre dig om sensitiviteten)?

Det er klart, at hvis en test skal være god, så ønsker vi, at både sensitiviteten og specificiteten er tæt på 100%.

Prævalens

Blandt alle dem, vi tester, vil en vis andel i virkeligheden være syge. Det kaldes for sygdommens prævalens. Det vil sige:

\[ \mathrm{prævalens } = P(\textrm{syg}) \]

  • Undersøg prævalensen for den sygdom, som du arbejder med.

Vi forestiller os nu, at du tester 10000 personer for den sygdom, som du arbejder med og lad os sige, at følgende er oplyst (du må også gerne bruge de tal, som du har fundet i de foregående opgaver):

Prævalens: \(P(\textrm{syg})= 5 \%\)

Sensitivitet: \(P(\textrm{positiv test } | \textrm{ syg}) = 86 \%\)

Specificitet: \(P(\textrm{negativ test } | \textrm{ rask}) = 92 \%\)

  • Udfyld nedenstående tabel (start med at bestemme det samlede antal syge og raske):
Syg Rask I alt
Positiv test
Negativ test
I alt

Positiv og negativ prædiktiv værdi

Hvis du bliver testet for en sygdom, så vil du enten stå med en positiv eller en negativ test, og du er dybest set slet ikke interesseret i ovenstående sandsynligheder (sensitivitet, specificitet og prævalens)! Du vil i stedet stille dig selv ét af følgende to spørgsmål:

  • Min test er positiv - hvad er sandsygligheden for, at jeg rent faktisk er syg?

eller

  • Min test er negativ - hvad er sandsygligheden for, at jeg rent faktisk er rask?

Du vil jo gerne undgå, at din test enten er falsk positiv eller falsk negativ.

Ovenstående sandsynligheder kaldes for den positive prædiktive værdi og den negative prædiktive værdi. Skrevet som en betinget sandsynlighed bliver det:

\[ \text{positiv prædiktiv værdi } = P(\textrm{syg } | \textrm{ positiv test}) \] og

\[ \text{negativ prædiktiv værdi } = P(\textrm{rask } | \textrm{ negativ test}) \]

Hvis du har brugt oplysningerne fra den forrige opgave, skulle du gerne have fået følgende tabel:

Syg Rask I alt
Positiv test \(430\) \(760\) \(1190\)
Negativ test \(70\) \(8740\) \(8810\)
I alt \(500\) \(9500\) \(10000\)
  • Benyt ovenstående tabel til at udregne den positive og negative prædiktive værdi.

Du undrer dig måske over, at den positive prædiktive værdi er så forholdsvis lav (36.1%), mens den negative prædiktive værdi er så tæt på 100% (99.2%). Men det er fordi, at den positive og negative prædiktive værdi ikke kun afhænger af testens sensitivitet og specificitet, men også af prævalensen af sygdommen (i den gruppe vi tester iblandt). Hvis vi ser på, hvad vi ved, inden vi overhovedet begynder at teste (det kaldes for prior sandsynligheder), så er det følgende:

\[P(\textrm{syg})= 5 \%\]

og dermed også at

\[P(\textrm{rask})= 95 \%\] Det vil sige, at inden vi har taget testen, er vi ret sikre på, at vi er raske. Får vi så (som forventet) en negativ test, så bliver vi bare endnu mere sikre på, at vi er raske (svarende til en negativ prædiktiv værdi på 99.2%). Får vi derimod en positiv test, så bliver vi lidt mere sikre på, at vi er syge. Vi opjusterer altså fra en prior sandsynlighed på 5% til en positiv prædiktiv værdi på 36.1%. Men fordi at sandsynligheden for at være syg på forhånden er så lille, så vil en positiv test stadig efterlade en vis chance for, at vi rent faktisk ikke er syge alligevel!

Det virker måske underligt, men forestil dig, at vi laver graviditetstest blandt mænd. Da ingen test er perfekt (sensitivitet og specificitet vil altid være under 100%), så vil der før eller siden ske det, at en af mændene tester positiv. Men her er det ret tydeligt, at prævalensen (det vil sige sandsynligheden for at være gravid) blandt dem vi tester (det vil sige mænd) er 0%. Derfor bliver den positive prædiktive værdi også 0%, selvom testen er positiv! Men det er selvfølgelig også lidt åndsvagt at lave graviditetstest blandt mænd…!

Hvis vi tester en hel befolkning for eksempelvis corona, så vil prævalensen være forholdsvis lav. Tester vi derimod kun blandt personer, som har symptomer på corona, så vil prævalens straks være højere. Vi skal nu undersøge, hvilken betydning det har på den positive og negative prædiktive værdi.

Vi forestiller os igen, at vi tester 10000 personer for den sygdom, som vi arbejder med og lad os sige, at sensitivitet og specificitet er som før, men at prævalensen varierer, som angivet nedenfor:

Prævalens: \(P(\textrm{syg})\) på henholdsvis \(1 \%\), \(5 \%\), \(20 \%\) og \(40 \%\).

Sensitivitet: \(P(\textrm{positiv test } | \textrm{ syg}) = 86 \%\)

Specificitet: \(P(\textrm{negativ test } | \textrm{ rask}) = 92 \%\)

  • Udfyld tabeller som nedenstående for hver af de fire forskellige prævalenser (husk at du allerede har tabellen for prævalensen på 5% fra opgave 3!):
Syg Rask I alt
Positiv test
Negativ test
I alt
  • Beregn positiv prædiktiv værdi (\(P(\textrm{syg } | \textrm{ positiv test})\)) og negativ prædiktiv værdi (\(P(\textrm{rask } | \textrm{ negativ test})\)) for de fire forskellige prævalenser og udfyld denne tabel:
Prævalens Positiv prædiktiv værdi Negativ prædiktiv værdi
\(1 \%\)
\(5 \%\)
\(20 \%\)
\(40 \%\)
  • Hvad sker der med henholdsvis den positive og den negative prædiktive værdi, når prævalensen stiger? Hvordan giver det mening?

Læs artiklen Antigentest gav 47% falsk negative svar.

  • Udfyld på baggrund af artiklen tabellen med antal raske/syge og positive/negative.

  • Udregn testens sensitivitet og specificitet.

  • Udregn prævalensen.

  • Udregn den positive og negative prædiktive værdi.

Bayes formel (mest for A-niveau)

Hvis du har læst med her (link til Allans note om Bayes klassificer - eller måske vi skal have splittet de generelle afsnit om betingede sandsynligheder og Bayes formel ud i en note for sig selv?) så ved du, at en betinget sandsynlighed er defineret på følgende måde:

\[ P(A | B) = \frac{P(A,B)}{P(B)} \]

(er det ok at skrive \(A,B\) i stedet for fællesmængden - der er alligevel ingen mængdelære tilbage i gymnasiet?). Og du har lært, at hvis man bruger det lidt smart, så kan man bevise Bayes’ sætning, som siger, at

\[ P(A | B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]

Det vil vi nu udnytte til at opskrive et udtryk for den positive prædiktive værdi:

\[ P(\text{syg } | \text{ positiv test}) = \frac{P(\text{positiv test } | \text{ syg}) \cdot P(\text{syg})}{P(\text{positiv test})} \]

Udnytter vi definitionen af sensitivitet og prævalens, så kan vi omskrive tælleren til

\[ P(\text{syg } | \text{ positiv test}) = \frac{\text{sensitivitet} \cdot \text{prævalens}}{P(\text{positiv test})} \tag{1}\]

Nu mangler vi at finde et udtryk for nævneren. Der må gælde, at

\[ P(\text{positiv test}) = P(\text{positiv test, syg}) + P(\text{positiv test, rask}) \] Bruger vi definitionen på betingede sandsynligheder, kan vi skrive ovenstående som

\[ P(\text{positiv test}) = P(\text{positiv test } | \text{ syg} ) \cdot P(\text{syg}) + P(\text{positiv test } | \text{ rask}) \cdot P(\text{rask}) \]

Vi udnytter nu, at \[P(\text{rask})+P(\text{syg})=1\] og dermed at \[P(\text{rask}) = 1- P(\text{syg})\] Tilsvarende er også \[P(\text{positiv test } | \text{rask}) = 1-P(\text{syg test } | \text{rask})\] Derfor er

\[ P(\text{positiv test}) = P(\text{positiv test } | \text{ syg} ) \cdot P(\text{syg}) + \left ( 1 - P(\text{negativ test } | \text{ rask}) \right ) \cdot \left ( 1- P(\text{syg}) \right ) \]

Men nu er sandsynligheden for at teste positiv alene udtrykt ved hjælp af sensitiviteten, specificiteten og prævalensen:

\[ P(\text{positiv test}) = \text{sensitivitet} \cdot \text{prævalens} + \left ( 1 - \text{specificitet} \right ) \cdot \left ( 1- \text{prævalens} \right ) \] Indsætter vi dette i (1), får vi

\[ P(\text{syg } | \text{ positiv test}) = \frac{\text{sensitivitet} \cdot \text{prævalens}}{\text{sensitivitet} \cdot \text{prævalens} + \left ( 1 - \text{specificitet} \right ) \cdot \left ( 1- \text{prævalens} \right )} \tag{2}\]

Bruger vi denne formel til at udregne den positive prædiktive værdi i det tilfælde, hvor prævalensen er 5%, sensitiviteten er 86% og specificiteten er 92%, får vi

\[ P(\text{syg } | \text{ positiv test}) = \frac{0.86 \cdot 0.05}{0.86 \cdot 0.05 + (1-0.92) \cdot (1-0.05)} = 0.361=36.1 \% \]

Det skulle meget gerne stemme med det, du har fået i opgave 4 (men hvor den positive prædiktive værdi blev beregner på baggrund af tabelværdier).

Antag, at vi bruger den samme sensitivitet, specificitet og prævalenser som tidligere:

Prævalens: \(P(\textrm{syg})\) på henholdsvis \(1 \%\), \(5 \%\), \(20 \%\) og \(40 \%\).

Sensitivitet: \(P(\textrm{positiv test } | \textrm{ syg}) = 86 \%\)

Specificitet: \(P(\textrm{negativ test } | \textrm{ rask}) = 92 \%\)

  • Brug nu formlen i (2) til at beregn den positive prædiktiv værdi (\(P(\textrm{syg } | \textrm{ positiv test})\)) for de fire forskellige prævalenser og udfyld denne tabel:
Prævalens Positiv prædiktiv værdi
\(1 \%\)
\(5 \%\)
\(20 \%\)
\(40 \%\)
  • Kontroller at dit resultat stemmer med det, du fik i opgave 5.
  • Opstil en formel for udregning af den negative prædiktive værdi ved at følge udledningen af formlen for den positive prædiktive værdi ovenfor.

  • Brug din formel til at udregne negativ prædiktiv værdi for prævalenserne fra opgave 7.

  • Kontroller at dit resultat stemmer med det du fik i opgave 5.

Videre læsning

Epidemimatematik: Test for smitte og sygdomme