Hoe bestrijd je corona met data

Hoe kunnen wiskundige modellen ons helpen om de juiste maatregelen te nemen tegen corona? En hoeveel capaciteit hebben we nodig in de zorg? Als datawetenschapper houden dit soort vraagstukken mij nu erg bezig.

13 april 2020

In tijden van crisis is het essentieel dat beslissingen razendsnel worden genomen. Dit moeten echter wel de juiste beslissingen zijn. Als je achter de feiten aan loopt of de verkeerde beslissingen neemt kan dit catastrofale gevolgen hebben, zoals te zien is aan de heftigheid van de corona-uitbraak in Italië of de Verenigde Staten. Momenteel ben ik werkzaam als datawetenschapper en onwikkelaar van wiskundige modellen bij Little Rocket (ingenieursbureau van data en software), en dit soort ingewikkelde puzzelstukken houden mij daarom erg bezig.

We hebben te maken met een pandemie van ongekende proporties, veroorzaakt door een virus waarover nog maar weinig bekend is. Dat maakt het extra lastig om bij het nemen van beslissingen te vertrouwen op kennis en ervaring. We hebben zoiets simpelweg nog niet eerder meegemaakt. We moeten dus leren omgaan met gebrek aan informatie en super snel kunnen schakelen op basis van nieuwe inzichten, kennis en data over corona. We zijn nu meer dan ooit aangewezen op slim gebruik van data, zodat we tijdens deze crisis de juiste beslissingen kunnen blijven nemen.

In deze blog wil ik je graag uitleggen welke rol datawetenschap heeft bij het nemen van beslissingen in dit soort crisissituaties. Voorspellingen spelen daarbij een belangrijke rol. We willen namelijk vooruit blijven kijken: hoe ontwikkelt het aantal doodzieke patiënten zich in de komende dagen en weken? Wat voor effecten verwachten we van maatregelen als social distancing op de verspreiding van corona? Door dit soort vragen te stellen kun je beginnen met voorop te lopen op de situatie, in plaats van erachteraan hobbelen.

Wiskundige modellen spelen daarbij een essentiële rol. Zij stellen ons in staat om complexe berekeningen te maken die ons inzicht geven in de toekomst. Ik probeer in deze blog iets meer detail te geven over de data science technieken die gebruikt worden om data om te zetten naar informatie, kennis en inzicht.

Logistische groei

De meest ‘eenvoudige’ modellen waar het RIVM en de Rijksoverheid belangrijke beslissingen op baseren zijn modellen van logistische groei. Deze modellen worden onder andere gebruikt door datawetenschappers van de Technische Universiteit Eindhoven, zie bijvoorbeeld dit artikel. Bij logistische groei wordt uitgegaan van twee processen: vermenigvuldiging van het aantal besmettingen, wat exponentiële groei veroorzaakt, en een groeibeperking door een toenemend aantal resistente personen onder de bevolking.

Deze twee processen vormen samen de ‘s-curve’ die op bovenstaande afbeelding te zien is. De afgeleide van deze curve is misschien nog wel bekender: de logistische verdeling die we kennen onder het ‘flatten-the-curve’ principe.

Het elegante aan het logistische groeimodel is de eenvoud ervan. Daarbij past het logistische groeimodel erg goed bij de besmetting data van veel verschillende landen, zoals die van bijvoorbeeld China en Zuid-Korea. Voor logistische groei zijn slechts drie variabelen belangrijk:

Het omslagpunt – over hoeveel dagen verwachten we dat het aantal nieuwe coronapatiënten afneemt, of zijn we dit omslagpunt al voorbij? Of anders gezegd: wanneer komt de piek van de curve die we met z’n allen vlakker proberen te maken?

Het maximum aantal besmettingen – hoeveel mensen verwachten we dat er in totaal besmet gaan raken met corona?

*De (logistische) groeisnelheid*– hoe besmettelijk is het virus? Of anders gezegd: hoeveel mensen raken er besmet door een besmet persoon? En na hoeveel tijd zijn het aantal besmettingen verdubbeld?

Datawetenschappers van de Technische Universiteit Eindhoven zijn dagelijks bezig om met vele verschillende databronnen een inschatting te maken hoe de bovenstaande curve eruit ziet en uit gaat zien voor Nederland. Om nauwkeurig te kunnen blijven voorspellen hoeveel besmettingen er dagelijks bij komen proberen ze antwoord te vinden op de vraag: waar zitten we precies op de logistische groeicurve?

Door het probleem te reduceren tot drie parameters (het omslagpunt, het maximum aantal besmettingen en de logistische groeisnelheid) lijkt het vrij eenvoudig om de trend te voorspellen. Er zitten nog wel een paar addertjes onder het gras. Er is namelijk nog wel sprake van veel onzekerheden.

Door het beperkt aantal testen in Nederland weten we namelijk niet precies hoeveel mensen er besmet zijn. Ook de cijfers uit het buitenland kunnen we niet zomaar blindelings volgen omdat de situatie in Nederland niet exact hetzelfde is als in bijvoorbeeld Duitsland of Spanje. Daarnaast verandert de logistische groeisnelheid ook met de genomen maatregelen, alleen zie je deze effecten pas optreden met een vertraging van twee tot drie weken. Tenslotte is het logistische groeimodel een erg simplistische weergave van de werkelijkheid. In de realiteit zijn er een hoop verschillende factoren die bepalen hoe het virus zich verspreidt en hoe effectief de genomen maatregelen zijn.

Agent-based modellen

Een hele andere manier om er veel realistischer naar te kijken is door gebruik te maken van agent-based modellen. Misschien heb je dit artikel van Harry Stevens in de Washington Post al een keer voorbij zien komen (zie plaatje). Hij laat met een simpel agent-based model op een elegante manier zien waarom social distancing helpt om de verspreiding van het virus te vertragen. Waar het bij agent-based modelling om gaat is dat we de verspreiding van het virus modelleren niet door te kijken naar het geheel maar naar het individu.

Het zijn immers individuele personen die besmet zijn met corona, die op hun beurt weer andere individuen kunnen besmetten als ze te dicht bij elkaar in de buurt komen. In het plaatje is dit weergegeven als bolletjes met zieke, gezonde en herstelde personen die willekeurig rondlopen in de ruimte. Bij agent-based modelleren bepaal je het gedrag van de individuele bolletjes, de agents, en kijk je hoe het geheel zich ontwikkelt als gevolg van botsingen (interacties) tussen de bolletjes.

bron: Harry Stevens, Washington Post

Het mooie is dat de curve die eruit komt wel heel veel lijkt op de curve die we inmiddels allemaal kennen. Toch is deze curve iets realistischer omdat het wat meer uitgaat van willekeurige interacties. Je kunt de simulatie meerdere keren opnieuw afspelen en iedere keer krijg je er een nét iets andere curve uit. Dit past beter bij de grillige realiteit. Deze is een stuk onzekerder dan een logistische groeicurve doet vermoeden. De verspreiding van corona hangt namelijk af van allemaal toevallige interacties tussen mensen die moeilijk op voorhand zijn te voorspellen.

Overigens kun je nog veel meer uit een agent-based model halen als we de regels iets complexer maken. Stevens geeft in het artikel zelf al aan dat het gebruikte model een nogal simplistisch beeld geeft van de realiteit. Het is dan ook slechts een ‘conceptueel model’ wat enkel bedoeld is om het principe van de maatregelen uit te leggen.

Netwerken tussen personen

Maar als het er echt op aan komt om te voorspellen hoe corona zich verspreidt hebben we ook inzicht nodig in de netwerken tussen personen: wie is met wie in contact geweest? De structuur van deze netwerken zijn sterk bepalend voor de manier waarop corona zich verspreid onder de bevolking. Hoe dit precies werkt staat mooi uitgelegd in dit artikel met Wander Jager.

Stap voor stap kunnen agent-based modellen over corona complexer worden gemaakt door meer gedetailleerde informatie toe te voegen. Hierbij moet je denken aan: hoe besmettelijk mensen zijn als functie van hoe lang ze het virus bij zich dragen, hoe besmettelijk kinderen zijn ten opzichte van volwassenen, in welke openbare ruimtes het risico op besmetting het grootst is, of hoe groot het risico is door het aanraken van oppervlakken of producten uit de supermarkt. Dit stelt ons beter in staat om antwoorden te vinden op specifieke vragen die virologen en politici momenteel bezighouden.

Intelligente(re) lockdowns

Op dit moment wordt de hele economie lamgelegd door de lockdownmaatregelen. Misschien is dit wel nodig vanwege de vele onzekerheden ten aanzien van de verspreiding van corona. Maar ergens blijft de vraag wel hangen: kun je echt wel spreken van een intelligente lockdown, als de economie hiermee enorme klappen krijgt waardoor werknemers en ZZP’ers op straat komen te staan? Kunnen de scholen bijvoorbeeld niet voorzichtig weer open als blijkt dat scholen geen belangrijke besmettingshaarden zijn?

 Kun je met behulp van agent-based modellen niet veel intelligentere beslissingen nemen door het beleid veel specifieker te maken op de belangrijke hotspots van corona? Het antwoord is natuurlijk ja! Maar er zijn wel investeringen nodig om dergelijke agent-based modellen te ontwikkelen, en om de juiste data te verzamelen waarmee deze modellen kunnen worden gevalideerd. Voor nu en in de toekomst zullen agent-based modellen een steeds belangrijkere rol gaan spelen bij het nemen van beslissingen in dit soort crisistijden. Datawetenschappers zijn daarbij de essentiële schakel in de ontwikkeling naar data-gedreven crisismanagement.

Reageer