In maart 2003 werd verpleegster Lucia de B. door de rechtbank veroordeeld voor vier moorden en twee pogingen tot moord. In de beoordeling speelde statistiek een grote rol: de kans dat zij toevallig aanwezig was bij zoveel incidenten zou extreem klein zijn. Statistici hadden veel kritiek op de berekeningen. In het hoger beroep van juni 2004 werd statistiek officieel buiten de bewijsvoering gehouden en Lucia de B. werd veroordeeld tot levenslang voor zeven moorden en drie pogingen tot moord.
Hoogleraar in de statistiek Richard Gill gelooft dat onjuiste statistiek wel degelijk een grote rol speelde bij deze veroordeling en vindt dat de zaak opnieuw moet worden gedaan. De commissie Posthumus-II bestudeert de feiten en beslist later dit jaar of dat inderdaad gebeurt. Gill stuurde de commissie een brief over de fouten die volgens hem zijn gemaakt met de statistiek. Een interview met deze statisticus.
Wanneer raakte u betrokken bij de zaak Lucia de B?
Pas erg laat. Toen deze zaak vijf jaar geleden in het nieuws was, vroeg mijn vrouw of ik niet eens naar de statistiek moest kijken. Dat heb ik tot mijn spijt toen niet gedaan. In november 2006 kreeg ik een e-mail van mijn collega Peter Grünwald. Hij had het boek van Ton Derksen over de zaak Lucia de B. gelezen en had zich er verder in verdiept. Grünwald wilde een brief naar de commissie Posthumus-II sturen over de statistiek die in de rechtszaak gebruikt was. Hij vroeg mij – als lid van de Koninklijke Nederlandse Academie der Wetenschappen – om hulp.
Richard Gill is hoogleraar in de statistiek aan de Universiteit Leiden. Sinds 1999 is hij lid van de Koninklijke Nederlandse Academie der Wetenschappen. Gill is op dit moment voorzitter van de Vereniging voor Statistiek en Operationele Research.
Maar statistiek speelde toch helemaal geen rol meer in de uiteindelijke veroordeling door het hof? Op de eerste bladzijde van het arrest staat inderdaad letterlijk “Er is geen statistisch bewijs in de vorm van toevalsberekeningen gebruikt.” Statistici haalden opgelucht adem toen dat bekend werd, omdat de gebruikte statistiek nogal omstreden was. Maar als je het arrest verder leest, dan blijkt dat statistiek wél een rol speelt. Het verkorte arrest van zo’n honderd bladzijden staat gewoon op internet. De eerste tachtig bladzijden gaan over twee gevallen en staan vol met medisch gebabbel en amateurpsychologie. Voor de overige acht moorden blijven dan nog maar twintig bladzijden over. En dan gebeurt het, in paragraaf 11 staat: “Er is geen enkele aannemelijke verklaring gevonden voor het feit dat de verdachte in die korte periode bij zoveel overlijdensgevallen en levensbedreigende incidenten betrokken was.” Ik was woedend toen ik dit las, dit is statistiek, al wordt er dan geen berekening bij gegeven. Daarna komen ook stukken die woordelijk zijn overgenomen uit het rapport van de statisticus van het hof, Henk Elffers.
Wat zijn de berekeningen die Elffers heeft gedaan?
Zijn methode is het beste uit te leggen aan de hand van de gegevens. Hieronder staat een van de tabellen die Elffers gebruikt heeft.
In deze tabel staat het overzicht van diensten en incidenten in het Juliana Kinderziekenhuis 1 oktober 2000 – 9 september 2001. Met ‘incidenten’ wordt het overlijden van een patiënt, een reanimatie of een verdachte gebeurtenis bedoeld. Er zijn in totaal drie tabellen voor verschillende periodes en verschillende werkplekken van Lucia de B. gebruikt.
Elffers’ model lijkt op dat van knikkers in een vaas. Voor elke dienst met een incident doe je een rode knikker in de vaas. Voor elke dienst zonder incident stop je een groene knikker in de vaas. Je hebt dan dus een vaas met 1029 knikkers, waarvan 9 rood. Je haalt nu knikkers uit de vaas voor de diensten en berekent de kans dat Lucia precies alle 9 rode knikkers trekt. Die kans is bijzonder klein.
Waarom klopt dat niet?
Dit model gaat ervan uit dat de diensten en incidenten allebei gelijkmatig verdeeld zijn. Dat is niet realistisch: zusters werken vaak veel diensten achter elkaar en hebben daarna bijvoorbeeld twee weken vrij. Ook sterfgevallen lijken vaker in clusters voor te komen, al is hier relatief weinig over bekend.
Een overzicht van de diensten (groen) van Lucia de B. en de incidenten (rood) in de periode dat zij in het Juliana Kinderziekenhuis werkte. De diensten zijn inderdaad niet homogeen over de tijd verdeeld. (Klik op de afbeelding voor een vergroting.)
Je moet bij schijnbare verbanden rekening houden met gemeenschappelijke onderliggende oorzaken. Statistici noemen dit confounding. Ooievaars bouwen bijvoorbeeld vaak nesten in dorpen met veel kinderen. Dat betekent niet dat de ooievaars inderdaad baby’s brengen. Dorpen met veel kinderen zijn vaak welvarender, waardoor ze meer ooievaars aantrekken. In medische statistiek moet vaak de tijd meegenomen worden als gemeenschappelijke, onderliggende oorzaak. Ik meen dat bij de diensten en incidenten de tijd een belangrijke rol speelt.
Een mogelijke oplossing bij gemeenschappelijke oorzaken is stratificatie: het indelen van de data in verschillende categorieën. Om de tijd als factor mee te nemen in je model, kun je kijken naar de gegevens per dag. Je bekijkt de dagen waarop Lucia dienst had én er een incident was. Per dag zijn er drie ploegen die dienst hebben, dus je zou verwachten dat áls Lucia de B. werkt op een dag dat er een incident is, de kans ongeveer 1 op 3 is dat zij daarbij is. Dat klopt met de totale gegevens: zij werkte op twintig dagen dat er een incident was en bij zes of zeven van die incidenten was zij aanwezig. Het is erg moeilijk om de juiste gegevens te krijgen. We denken nu dat ze bij zeven incidenten aanwezig was.
Is het dan niet vreemd dat zij steeds werkte als er een incident was?
Er lijkt inderdaad een verband te zijn tussen de dagen dat Lucia de B. werkte en dagen met incidenten. Maar daar kunnen allerlei redenen voor zijn. Een verpleegster neemt bijvoorbeeld vakantie als het rustig is en draait extra diensten als het druk is. Elffers gaf in zijn rapport ook een kort lijstje met mogelijke verklaringen voor het verband dat hij had gevonden: misschien had Lucia moeilijkere patiënten, had ze een ander dienstrooster of was ze domweg een slechte verpleegster. Die verklaringen zijn door het hof nagegaan en verworpen. Vervolgens concludeerden ze dat het dus moord moest zijn geweest.
Iedereen met een exacte instelling ziet gelijk dat dit onzin is. Elffers gaf aan dat hij een correlatie zag en noemde een paar voorbeelden van mogelijke verklaringen. Het is niet genoeg om dan alleen die paar voorbeelden even te controleren. Er zijn nog honderden andere verklaringen mogelijk.
Bij het combineren van gegevens kunnen vreemde dingen gebeuren als de statistiek niet goed wordt gebruikt. Gill noemt als voorbeeld aanmeldingen van mannen en vrouwen aan de universiteit. In 1973 werd Berkeley in Californië aangeklaagd wegens discriminatie omdat ze meer vrouwen dan mannen afwezen. In het najaar van 1973 meldden zich 8442 mannen en 4321 vrouwen aan. Ongeveer 44% van de mannen en 35% van de vrouwen werd toegelaten. Het leek dus alsof vrouwen werden gediscrimineerd. Statistici onderzochten deze cijfers wat nauwkeuriger. De aanmeldingen werden per faculteit behandeld, dus het lag voor de hand om te kijken welke faculteiten het verschil veroorzaakten. Wat bleek? Er waren vier faculteiten die in verhouding meer vrouwen dan mannen afwezen, maar er waren zes faculteiten die in verhouding juist te veel mannen afwezen. Eigenlijk zou je hierdoor verwachten dat vrouwen juist méér kans hadden om te worden aangenomen. De verklaring was dat vrouwen zich massaal aanmeldden voor studies waar relatief weinig mensen werden toegelaten. Bij Engels kwamen twee op de drie aanmeldingen van vrouwen, bij werktuigbouwkunde slechts twee op de honderd. Terwijl Engels juist veel aanvragen afwees en werktuigbouwkunde heel weinig. Het verschijnsel dat de prestaties van bepaalde groepen omgekeerd lijken als ze worden opgeteld, wordt in de statistiek Simpsons paradox genoemd.
Zijn er nog andere fouten gemaakt in de statistiek?
Er zijn om te beginnen onjuiste gegevens gebruikt. Niemand heeft naar de oorspronkelijke data gekeken. De tabellen die het ziekenhuis maakte, zijn domweg overgenomen. Pas nu wordt in de oorspronkelijke dossiers gekeken. De tabel hierboven blijkt bijvoorbeeld niet te kloppen: de 9 incidenten waar Lucia dienst had moeten er 5 zijn en de 0 incidenten waar zij geen dienst had waren er eigenlijk 2.
Ook is niet goed gedefinieerd wat een incident is. Precies dezelfde gebeurtenis is een incident als Lucia aanwezig was en anders niet. Een medisch deskundige zei zelfs dat hij een gebeurtenis verdacht vond omdát Lucia erbij was. Zo mag je natuurlijk geen gegevens verzamelen.
Elffers heeft ook een belangrijke technische fout gemaakt. Hij heeft de gegevens van drie tabellen onjuist gecombineerd. Je kunt de drie tabellen niet zomaar bij elkaar optellen, dan loop je risico op Simsons paradox. Elffers berekende voor elk van de drie modellen de p-waarde: deze geeft aan wat de kans is op de gevonden gegevens onder een bepaalde aanname (in dit geval was de aanname dat Lucia de B. onschuldig was). Hij kreeg daarbij drie verschillende p-waarden en die heeft hij gewoon met elkaar vermenigvuldigd. Dat mag niet zomaar. Als je meer kansen met elkaar vermenigvuldigt, wordt de totale kans alleen maar kleiner. Dat effect krijg je niet als alle gevallen op één afdeling zouden zijn geweest. Dat klopt dus niet. Nogmaals: de correcte manier om de data hier te combineren is door te stratificeren naar tijd en ziekenhuis en een bijpassende analysemethode als de Mantel-Haenszel-toets te gebruiken.
Was er geen meningsverschil over de gebruikte methoden tussen verschillende stromingen binnen de statistiek? Die zogenaamde clash tussen Bayesianen en niet-Bayesianen is onzin. Alle echte statistici zijn het eens met elkaar, dus ook verstandige Bayesianen en verstandige frequentisten komen tot de conclusie dat het statistisch gezien heel gewoon was wat Lucia de B. meemaakte.
Denkt u überhaupt dat mensen veroordeeld kunnen worden op basis van een heel kleine kans op een gebeurtenis? Dat kan ik als statisticus niet zeggen, dat moet de rechter doen. De jurisprudentie is dat het niet mag, dat er in elk geval ook nog een ander bewijs moet zijn. Ik zou zelf niemand levenslang naar de gevangenis durven sturen als er maar één bewijsstuk is en als dat bewijsstuk inhoudt dat de kans dat je een bepaalde gebeurtenis toevallig meemaakte één op een miljoen is. Zelfs met zulke kleine kansen komen deze gebeurtenissen wereldwijd vaak voor.
Meer informatie:
- Richard Gills pagina over de zaak Lucia de B.
- Peter Grünwalds pagina over de zaak Lucia de B.
- Rechtspraak.nl – Het arrest van Lucia de B.
- Lucia de Berk en de amateurstatistici (professor Piet Groeneboom)
- Artikel over studenten Berkeley (Engels)
- Simpsons paradox (Engels, Wikipedia)
- De p-waarde (Wikipedia)
- Statistiek in de rechtszaal
- Forensische statistiek (Kennislinkartikel)
- Intermediar – Statistici rekenen zich rot over strafzaak-Lucia de B.
- Nature – Statistics: conviction by numbers
- de Volkskrant – Ook Nature twijfelt aan schuld Lucia de B.
- EenVandaag – Veroordeeld door de statistiek
- Vrij Nederland – Statistici op de bres voor Lucia de B.