Screeningsprogrammer - matematik

A-niveau
Bioteknologi

I dette forløb tages der udgangspunkt i artiklen Novel Blood-Based, Five-Gene Biomarker Set for the Detection of Colorectal Cancer, som du kan finde arbejdsspørgsmål til under bioteknologi delen - modul 3.

Kort fortalt handler artikel om screening for tarmkræft ved brug af fem genetiske markører, som samlet set har vist sig at være tilstrækkeligt forskellige fra syge til raske personer til at kunne danne baggrund for et screeningsprogram.

Artiklen er meget teknisk, men den præsenterer også nogle relevante overvejelser omkring screeningsprogrammer generelt. De behøver ikke være ufejlbarlige på individniveau for at forbedre folkesundheden, men skal fange mange syge tidligt i forløbet, så behandling er mulig. De skal også være enkle og helst ikke invasive, så mange vælger screeningen til.

Vi har ikke tid og ressourcer til at etablere et datagrundløb fra en stor klinisk undersøgelse af mange mennesker, så vi vil kunstigt og med brug af matematik generere et tilsvarende datamateriale, som vi kan bruge som eksempel. Vi vil i den forbindelse bruge de indbyrdes forhold mellem syge og raske for de fem udvalgte genetiske markører fra artiklens tabel 2. Det giver forhåbentlig et realistisk bud på, hvor store forskelle mellem raske og syge, man kan forvente at finde ved genundersøgelser i forbindelse med andre alvorlige sygdomme.

Fra artiklens har vi følgende forhold syge/raske for de fem udvalgte genetiske markører:

Tabel 1: Tabel med forholdet mellem syge og raske for de fem udvalgte genetiske markører.
Genmarkør Forhold syge/raske
Gen1 \(0.43\)
Gen2 \(0.42\)
Gen3 \(1.34\)
Gen4 \(1.29\)
Gen5 \(0.42\)

Bemærk, at nogle i gennemsnit er højere for de syge og nogle er lavere (fra \(0.42\) til \(1.34\)).

Vi vil generere talværdier for genmarkørerne ved at sample en normalfordeling, hvor vi har valgt en middelværdi som den gennemsnitlige værdi for den pågældende genmarkør og en spredning som et mål for den biologiske variation.

NIKOLAJ: Jeg synes, at vi skal lade dette være en del af forudsætningerne. Vores forløb henvender sig pt direkte til eleverne.

Repeter lidt deskriptiv statistik fra ugrupperede observationer til grupperede observationer og histogrammer. Brug elevernes højder som eksempel.

Bemærk, at histogrammer ofte har en klokkeform, og inddrag flere eksempler blandt andet med afsæt i biologisk variation.

Præsenter tæthedsfunktioner fra normalfordelingen som en model for klokkeformen, som har vist sig at passe godt i mange anvendelser. Sandsynligheder er arealer under grafen.

Vis hvordan man kan sample data med normalfordelingen. Brug f.eks. højder af værnepligtige N(μ,σ) med middelværdi μ=180,7cm og spredning σ=6,8cm.

For raske har vi valgt at bruge middelværdien \(\mu=10\) og spredningen \(\sigma=5\) – altså normalfordelingen \(N(10,5)\).

For syge ændrer vi middelværdien afhængig af det angivne forhold i tabel 1 for den pågældende genmarkør, men beholder en spredning på \(5\).

Genmarkør Anvendt fordeling
Gen1 \(N(4.3,5)\)
Gen2 \(N(4.2,5)\)
Gen3 \(N(13.4,5)\)
Gen4 \(N(12.9,5)\)
Gen5 \(N(4.2,5)\)

Vi kan nu generere vores kunstige kliniske data ved at sample fra disse normalfordelinger. Her skal Ege lave noget smart, så vi kan undgå Maple.

  • Generer kunstige kliniske data for raske og for syge ved at sample fra normalfordelingerne ovenfor.

  • Prøv også generere data, hvor spredningen er sat ned fra \(5\) til \(2\). Det bør give en større forskel på de kliniske data for syge og for raske. Overvej hvorfor.

  • Prøv tilsvarende at generere data, hvor spredningen er sat op fra \(5\) til \(10\). Det bør give en mindre forskel på de kliniske data for syge og for raske. Overvej hvorfor.

Bemærk, at vi har valgt at bruge normalfordelingerne \(N(10,5)\) som udgangspunkt. Det er blot for at illustrere metoden. Det har altså ikke afsæt i kendte biologiske parametre. At sætte middelværdien til \(10\) svarer blot til at vælge en enhed, hvor talværdien bliver \(10\), så det er ret uproblematisk. At sætte spredningen til \(5\) kan være mere problematisk, da det svarer til at angive information om den biologiske variation for den pågældende genmarkør.

I en virkelig anvendelse med brug af rigtige kliniske data for raske og for syge ville man sikkert se, at normalfordelinger er en god model for de kliniske data, men at middelværdi og spredning er forskellig for hver af de fem genmarkører.

Screencast her med brug enten af app eller af Orange.

Vi vil nu illustrere, hvordan de kliniske data kan bruges til at træne et neuralt net, som efterfølgende kan bruges i vores screeningsprogram for den pågældende sygdom. Vi lader de første syv raske og syv syge personer udgøre vores træningsdata.

Før vi kan bruge det i et screeningsprogram, skal vi bruge de resterende seks personer fra vores fiktive kliniske data til at teste, om det virker efter hensigten.

Vi ser, at modellen stort set ser ud til at virke, men dog ikke fanger, at personF er syg. PersonD og personE ville imidlertid være blevet opdaget ved en screening.

Kvaliteten af en AI anvendelse afhænger voldsomt af kvaliteten og mængden af træningsdata.

Brug nogle af jeres egne fiktive kliniske data fra aktivitet 2 som træningsdata og andre af jeres kliniske data som testdata.

Definer og træn et kunstigt neuralt net med jeres træningsdata, som det blev vist i aktivitet 3.

Afprøv derefter med jeres testdata om screeningen for sygdommen med AI virker.

Evt. også noget med at prøve på de data, hvor der har været ændret på spredningen.