De kans van een patiënt

Hoe groot is de kans dat iemand die ongezond eet op latere leeftijd hartklachten krijgt? Wat is de kans dat een darmkankerpatiënt binnen een jaar overlijdt? Om dit in te schatten maakt de medische wetenschap veel gebruik van voorspelmodellen, maar die zijn lang niet altijd goed. Een nieuwe richtlijn, opgesteld door een onderzoeksteam van UMC Utrecht, moet leiden tot betere voorspelmodellen.

9 januari 2015

Ook bij de weersvoorspelling wordt gebruik gemaakt van voorspelmodellen.
Wikimedia Commons

Voorspelmodellen proberen, zoals de naam al zegt, te voorspellen of iets dat we nu nog niet weten toch al aanwezig is of in de toekomst gaat gebeuren. “Ik vergelijk het altijd met de weersverwachting”, zegt Carl Moons, hoogleraar klinische epidemiologie aan het Julius Centrum van het UMC Utrecht. “Erwin Kroll probeert elke dag te voorspellen hoeveel regen er de komende dagen valt. Binnen de geneeskunde voorspellen we iets anders, maar het idee is hetzelfde. We proberen te achterhalen hoe groot de kans is dat iemand een bepaalde ziekte heeft, maar dat nog niet weet. Of dat iemand ziek wordt, dood gaat of een bepaalde complicatie krijgt. Daarvoor maken we modellen die bestaan uit combinaties van minimaal twee factoren. Zoals gegevens die we kennen van of meten bij patiënten, bijvoorbeeld de leeftijd, het geslacht, familieomstandigheden. Maar ook zaken als bloeddruk, cholesterol of gegevens van röntgenfoto’s.”

Sexy

Inmiddels zijn er in de wetenschappelijke literatuur tienduizenden voorspelmodellen beschreven. Veel daarvan richten zich op dezelfde aandoeningen. Zo zijn er wel tweehonderd modellen waarmee je voorspelt of iemand risico loopt op hart- en vaatziekten. Waarom het er zo ontzettend veel zijn, vindt Moons een goede vraag. “Voorspelmodellen zijn sexy geworden”, zegt hij. “Artsen behandelen steeds minder op basis van klinische expertise en gut feeling, maar gaan nu af op meer objectieve methoden om de kansen te berekenen.” Het idee daarachter is dat modellen ontwikkeld zijn op basis van data en daardoor dus betrouwbaarder zijn dan een onderbuikgevoel.

“Dat is de vriendelijke verklaring”, gaat Moons verder. “Een andere, meer perverse, verklaring kan zijn dat wetenschappers tegenwoordig geheel worden afgerekend op het aantal publicaties in vakbladen. Als je een dataset beschikbaar hebt, is een voorspelmodel zo gemaakt. Dus dat publiceert makkelijk. En je weet maar nooit of jouw model uiteindelijk beroemd wordt. Misschien wel net zo beroemd als het fameuze Apgar model (zie ook afbeelding en kader hieronder). Daar dromen veel wetenschappers van.”

Apgar-score

In 1952 ontwikkelde Virginia Apgar de , een test om een snelle indruk te krijgen van de toestand van een pasgeboren baby. Het is één van de eerste voorspelmodellen in de geneeskunde waarin vijf verschillende factoren zijn opgenomen: ademhaling, pols- en hartslag, spierspanning, kleur van de huid en reactie op prikkels. Dit model is later uitgebreid onderzocht en getest en bleek zo succesvol dat de Apgar-score inmiddels standaard wordt afgenomen in de eerste minuten van het leven van een baby.

Onwetendheid

Helaas is de kwaliteit van voorspelmodellen lang niet altijd om over naar huis te schrijven. Moons en zijn collega’s struinden de literatuur af en schrokken van wat ze af en toe tegenkwamen. Ze signaleerden ontbrekende gegevens en veel te grove conclusies die werden getrokken. Zoals een onderzoek onder diabetespatiënten dat werd toegepast op de algemene bevolking. Ook merkten ze te kleine datasets op en veel te veel variabelen waardoor men altijd wel wat vindt. Deze voorbeelden waren geen uitzonderingen. “Wat je dan krijgt, zijn hele slechte modellen”, zegt Moons. “Sterker nog, het zijn waardeloze modellen. 60 tot 70 procent van de voorspelmodellen die we in sommige reviews tegenkwamen, had de literatuur nooit mogen halen.”

Schematische weergave van het Apgar model. Het bevat vijf factoren: ademhaling, pols- en hartslag, spierspanning, kleur van de huid en reactie op prikkels. Voor iedere variabele kan een pasgeboren baby 0, 1 of 2 punten verdienen. Hoe minder punten, des te slechter de conditie van de baby. De meeste baby’s komen ter wereld met een totaalscore tussen 7 en 10 punten. Bij minder dan 4 punten is er altijd directe ondersteuning nodig.
Wikimedia Commons

Schokkend, zeker als je bedenkt dat voorspelmodellen ook steeds meer terecht komen in behandelrichtlijnen, op internet en in apps. “Omdat er zoveel modellen zijn, hebben artsen en richtlijnontwikkelaars vaak geen idee welke ze het beste kunnen gebruiken in welke situatie”, vertelt Moons. “Dit vakgebied staat nog in de kinderschoenen. Daarom is er te weinig algemene kennis. Het goed ontwikkelen en beoordelen van voorspelmodellen zit ook nog steeds niet in de meeste biomedische opleidingen. En dus is er veel onwetendheid.”

Om het kaf van het koren te scheiden, heeft een internationaal team van wetenschappers een nieuwe publicatierichtlijn opgesteld: TRIPOD. De richtlijn bevat een checklist van 22 items waaraan een publicatie over een voorspelmodel zou moeten voldoen. Voorbeelden zijn een duidelijke uitleg van de methode en openheid over waar de gegevens vandaan komen.

De richtlijn wordt deze maand in maar liefst 11 gerenommeerde vaktijdschriften tegelijk gepubliceerd. Dat is uniek. Moons: “Een aantal tijdschriften heeft aan tafel gezeten bij het opstellen van de richtlijn. Het idee is dat deze tijdschriften zich aan de richtlijn gaan houden om onderzoekers te dwingen betere en transparantere publicaties over voorspelmodellen aan te leveren. Het is een indirecte weg, want in feite willen we dat de onderzoekers gewoon beter onderzoek naar voorspelmodellen doen. De tijdschriften hebben beloofd dat ze deze publicatierichtlijn zullen gaan hanteren en onderzoekers eraan te herinneren. Maar tijdschriften moeten ook gevuld worden en hebben te maken met verkoopcijfers, dus het is altijd afwachten. Toch hopen we dat de richtlijn werkt als machtsmiddel.”

Zeker van je kans

Want slechte voorspelmodellen kunnen voor patiënten grote gevolgen hebben. “Als een arts een slecht model gebruikt, komt daar een verkeerde kans uit en dat kan nogal impact hebben op de patiënt of de directe omgeving”, legt Moons uit. “Met een model dat de kans op obesitas voorspelt, kan je misschien niet zoveel kwaad doen, maar als je bij kanker de prognose wilt geven dat iemand nog maar 20 procent kans heeft om de volgende zes maanden te halen, moet je wel zeker zijn van je kans.”

Als de kans op een ziekte of complicatie te hoog wordt ingeschat, loopt de patiënt het risico om onterecht behandeld te worden. Bij een zware operatie of behandeling heeft dat wellicht meer nadelige dan positieve effecten. Andersom kan ook: als de kans op een ziekte of complicatie te laag wordt ingeschat, wordt een patiënt onterecht niet behandeld.

Dus wat moet je als arts nu doen? Voorspelmodellen wel gebruiken of liever links laten liggen? Moons: “Het menselijk brein is onderhevig aan vergeten en aan voorkeuren. Een model is objectief. Als een voorspelmodel goed is ontwikkeld en goed is gevalideerd, hebben veel onderzoeken al laten zien dat het beter voorspelt dan gut feeling. Met onze publicatierichtlijn willen we artsen en richtlijnontwikkelaars helpen om het model dat ze willen gebruiken of aanprijzen makkelijker te kunnen beoordelen op haar merites. Maar een kans van een model is geen wetmatigheid. Er komt altijd interpretatie bij kijken. Je moet als arts dus wel blijven kijken naar de patiënt die je voor je hebt.”

De TRIPOD-richtlijn (Transparent Reporting of a prediction model for Individual Prognosis Or Diagnosis) verscheen deze week in de volgende tijdschriften: Annals of Internal Medicine, International Journal of Obstetrics and Gynaecology (BJOG), British Journal of Cancer, British Journal of Surgery, BMC Medicine, British Medical Journal, Circulation, Diabetic Medicine, European Journal of Clinical Investigation, European Urology en Journal of Clinical Epidemiology.