Naar de content

Fouten filteren uit de wetenschap

Wereldwijd lof voor programma dat psychologische onderzoeken controleert

Alexandre Carvalho (CC BY 2.0)

Kloppen de cijfertjes in psychologische onderzoeken wel? Om dat na te gaan analyseert het computerprogramma Statcheck wetenschappelijke publicaties en controleert het de resultaten. “In de wetenschap hoef je niet op iemands blauwe ogen te vertrouwen”, zegt Michèle Nuijten (Universiteit van Tilburg).

Eind 2016 deed Statcheck nogal wat stof opwaaien toen Nuijten haar collega Chris Hartgerink goedkeuring gaf om haar programma te gebruiken. Als je een publicatie in Statcheck invoert vindt het automatisch de onderzoeksresultaten en herberekent de p-waarde; een getal dat aangeeft of de uitkomst van een onderzoek significant genoemd mag worden.

Nuijten maakte de analyseresultaten van individuele studies nooit openbaar, maar haar collega Hartgerink wilde drastischer te werk gaan. Hij liet Statcheck 50.000 wetenschappelijke publicaties nalopen, waarna een robot de betrokkenen mailde of hun p-waarde klopte met hun resultaten. Dat was lang niet altijd het geval. Sommige onderzoekers waren beledigd dat iemand ongevraagd hun onderzoek controleerde en hadden het gevoel dat ze van fraude werden beschuldigd. “Toen ik boze mailtjes kreeg werd ik wel zenuwachtig”, vertelt Nuijten, “maar er waren ook veel wetenschappers blij dat wij een fout in hun onderzoek hadden gevonden.”

Hoe werkt het?

Statcheck is in staat in psychologisch onderzoek de getallen te vinden die nodig zijn om de de p-waarde te berekenen. Je geeft het programma een tekstbestand en het filtert de resultaten eruit en berekent de p-waarde opnieuw. Regelmatig blijkt daaruit dat er een fout is gemaakt. Het is belangrijk dat deze fouten niet onopgemerkt blijven: niet alleen kan het leiden tot verkeerde aannames in de psychologie, het heeft ook grote gevolgen voor nieuwe onderzoeken die gebaseerd worden op eerdere conclusies. Zo kan een rekenfout grote gevolgen hebben.

Wat is de p-waarde?

Van wetenschappelijk onderzoek moet worden aangetoond dat de uitkomsten niet op toeval berusten. Daarvoor gebruiken we de p-waarde. Wat heb je daarvoor nodig?

Voor een wetenschappelijk onderzoek begin je met een hypothese (verwachte uitkomst) en een nulhypothese (uitkomst zonder verschil). Als je bijvoorbeeld wil weten of mensen gelukkiger zijn als ze in de stad of op het platteland wonen, kan je hypothese zijn: “mensen in de stad zijn gelukkiger dan mensen op het platteland.” Je nulhypothese is dan: “mensen op het platteland en in de stad zijn even gelukkig.”

Nadat je het geluksgevoel van 100 mensen uit de stad en 100 van het platteland hebt onderzocht kun je het verschil tussen de twee hypotheses berekenen. Dan volgt een ingewikkelde berekening gebaseerd op het gevonden verschil en het aantal mensen in de testgroep. Uit die berekening komt de p-waarde: de kans dat het gevonden verschil op toeval berust.

Wetenschappers hebben afgesproken dat je mag zeggen dat het verschil significant is als de p-waarde kleiner is dan 0,05, minder dan 5 procent. Ligt de uitkomst hoger, dan is de kans te groot dat je in een volgend onderzoek een andere uitslag krijgt. De p-waarde wordt dan ‘niet significant’ genoemd.

Muggenzifterij

Het succes kwam onverwacht. Nuijten nam het project in 2012 over van een collega omdat ze wilde oefenen met het programmeren van statistische applicaties. “Ik had verwacht dat andere psychologen het muggenzifterij zouden vinden, een tool voor statistici. Ik had nooit gedacht dat er zoveel interesse in zou zijn.”

Inmiddels is Statcheck hard op weg geaccepteerd te worden als standaardtool in het psychologische vakgebied. Het programma wordt genomineerd voor wetenschappelijke prijzen en verschillende belangrijke wetenschappelijke tijdschriften hebben Statcheck in hun review-proces opgenomen. Alle artikelen van het vakblad Psychological Science gaan nu standaard door Statcheck heen. Ook The Royal Society, de Britse academie voor wetenschappen, heeft onlangs laten weten achter het project te staan.

Foutje?

Bij een incorrecte p-waarde is volgens Nuijten niet per se sprake van wetenschapsfraude. “Het is waarschijnlijk zelden echte fraude”, zegt ze. “Psychologen weten wel iets van statistiek af, maar zijn er niet voor getraind. Als ze aan de slag gaan met ingewikkelde software wordt er weleens een cijfer verkeerd overgenomen.”

Maar helemaal onschuldig is een afwijkende p-waarde ook weer niet. Uit de cijfers van Nuijten blijkt dat p-waardes veel vaker naar beneden worden afgerond dan naar boven. Omdat de p-waarde bepaalt of een onderzoeksresultaat significant is of niet, kan hij het verschil maken tussen publicatie van je onderzoek of de prullenbak.

Het is mogelijk dat een onderzoeker bij een p-waarde van 0,051 gefrustreerd is dat het onderzoek nét buiten de boot valt, en het opschrijft als 0,05. Maar dat p-waardes vaker lager uitvallen kan ook andere oorzaken hebben. “De statistische afwijking kan worden veroorzaakt doordat alleen de onderzoeken met een lage p-waarde uiteindelijk gepubliceerd worden,” zegt ze. “De per ongeluk naar boven afgeronde p-waardes worden niet gepubliceerd, worden vergeten en ontbreken daardoor in de statistieken.” Dit verschijnsel wordt de publicatiebias genoemd.

Daarnaast zijn onderzoekers kritischer op tegenvallende resultaten. “Ze verwachten vaak een bepaald resultaat”, zegt Nuijten. “Als die verwachting niet uitkomt ben je eerder geneigd alles nog eens goed door te rekenen. Heb je een prachtig significant effect waar je blij mee bent, dan wordt de kans dat je alles nog drie keer naloopt kleiner. Dus zelfs met de beste intenties kun je een systematische vertekening krijgen.”

Toevallig in Tilburg

Met Statcheck wordt dus nauwelijks fraude boven water gehaald. Manipuleren van de p-waarde is ook niet de beste strategie voor fraudeurs. “Echte fraudeurs rommelen met de data zelf, niet met de conclusies,” zegt Nuijten. Dat is ook hoe Diederik Stapel het deed. Stapel zoog jarenlang hele datasets uit zijn duim en liep uiteindelijk in 2011 tegen de lamp in een groot schandaal rond de faculteit psychologie van de universiteit van Tilburg. Het is dan ook niet toevallig dat het Tilburg is waar Nuijten de kans kreeg om Statcheck te ontwikkelen. “Wij hebben met de vakgroep Meta Science zoveel kunnen doen door een groeiend bewustzijn in de psychologie dat niet al het onderzoek van hoge kwaliteit is”, zegt ze. “Ik denk wel dat de universiteit van Tilburg het in het licht van het verleden fijn vindt om daar een voorloper in te zijn.”

In de vakgroep meta research van de universiteit van Tilburg werken tien onderzoekers aan het verbeteren van wetenschappelijke methodieken.

Naberacka via Flickr (CC BY-SA 2.0)

Als het aan Nuijten ligt blijft het niet bij psychologische onderzoeken. “We willen Statcheck graag uitbreiden naar andere wetenschappelijke velden, maar dat is makkelijker gezegd dan gedaan. De manier van rapporteren van resultaten kan erg verschillen tussen vakgebieden.” Zo zijn economische onderzoeken op veel vlakken vergelijkbaar met psychologische onderzoeken, maar worden resultaten heel anders genoteerd. “Omdat de testwaardes zoals de p-waarde verstopt zitten in de lopende tekst kan Statcheck die getallen nog niet goed narekenen.”

Ondanks het succes blijft Nuijten bescheiden: “Eigenlijk pakken we met Statcheck maar een klein deel van het probleem aan: een verkeerd berekende p-waarde is relatief gemakkelijk te vinden. Het grotere probleem is de slechte beschikbaarheid van ruwe onderzoeksdata.” Nuijten denkt dat onderzoekers nauwkeuriger zouden zijn wanneer de data openbaar zouden zijn. “Als mensen je data na kunnen gaan gooi je er minder snel wat resultaten uit die niet in je hypothese passen. Maar misschien nog wel belangrijker: als data openbaar zijn worden fouten in de wetenschap eerder ontdekt en gecorrigeerd.” Nuijten droomt van een wetenschap zonder vertrouwenscultuur. “Het mooie van wetenschap is juist dat je alleen kijkt naar de resultaten en anderen niet op hun blauwe ogen vertrouwt.”

ReactiesReageer