'Meer dan helft psychologische studies bevat fouten'

Meer dan de helft van de psychologische studies bevat fouten. Onderzoekers doen alles om hun gegevens op te poetsen en een effect te kunnen aantonen, zegt promovenda Marjan Bakker. “Zo meten we steeds effecten die er niet zijn.”

28 april 2014

Er is goed onderzoek, een groot grijs gebied en ronduit slecht of frauduleus onderzoek. Dat fraude – het verzinnen van data zoals Diederik Stapel deed – niet mag, vinden we allemaal. Maar juist dat grijze gebied is ontzettend interessant, zegt psycholoog Marjan Bakker, die afgelopen donderdag aan de Universiteit van Amsterdam promoveerde.

“Wat gebeurt er als de onderzoeker zijn experimenten heeft uitgevoerd, en de grote data-analyse kan beginnen? Wanneer zijn bepaalde methoden wel van toepassing en wanneer niet? Welke keuzes maken onderzoekers hierin?” Bakker analyseerde vijf jaar lang honderden studies binnen de psychologie, en ontdekte dat in meer dan de helft bewust en onbewust gemaakte slordigheden en fouten zitten.

Ouderdom en loopsnelheid

“Stel je voor”, zegt Bakker, “je wil weten of het lezen over ouderdom invloed heeft op je gedrag, of je dan bijvoorbeeld langzamer gaat lopen. Dan verzamel je proefpersonen, en zet je een experiment op. Je laat de ene helft woorden lezen die met ouderdom te maken hebben – zoals rollator, opa en gewrichtsslijtage – en de andere helft neutrale woorden – zoals fiets, kind en tafel. Vervolgens kijk je: hoe snel lopen de beide groepen door de gang nadat ze de woorden hebben gelezen? Het kan zijn dat de gemiddelden van de twee groepen verschillen, en dat er dus een effect lijkt te zijn van het lezen over ouderdom op gedrag.”

Hoeveel de gemiddelden moeten verschillen voordat er officieel gesproken mag worden van een effect, drukken we uit in de zogeheten ‘p-waarde’ (zie kader onderaan). Hoe kleiner deze p-waarde, hoe zekerder je bent van het effect. “Als er uit je gegevens blijkt dat deze minder is dan 0,05 (vijf procent), betekent dit dat er minder dan vijf procent kans is dat je dit verschil weliswaar hebt gevónden – dat het er dus lijkt te zijn – maar dat het er niet ís. Dat is genoeg om te concluderen: er is een effect! Natuurlijk is er dan nog steeds een kleine kans dat er geen effect is, maar je toevallig toch iets vindt. Maar die kleine mogelijkheid accepteren we officieel met z’n allen.”

Alles voor de p-waarde

“Zit je p-waarde onder die 0,05? Dan ben je als onderzoeker blij: dan kan je publiceren. Maar het kan ook zijn dat je een p-waarde hebt van 0,08. Dan is er geen effect.” En dán, zegt Bakker, gaat het mis.

“Onderzoekers doen alles om op een kleine p-waarde uit te komen. Ze pakken hun data er nog een keer bij. Er blijkt een extreem afwijkende waarde of outlyer te zijn: een proefpersoon die ondanks het lezen van de ouderdomswoorden, toch heel snel door de gang heeft gewandeld. Hij trekt de loopsnelheid van de ouderdomsgroep in zijn eentje enorm omhoog. Gooi je het mannetje uit de data, dan verschillen de groepsgemiddeldes weer genoeg en komt de p-waarde weer keurig onder de 0,05. Niet helemaal netjes, denkt de onderzoeker misschien, maar het werkt wel.”

Een effect dat er niet is

Maar liefst 38 procent van de onderzoekers doet dit wel eens. En het risico hiervan is, zegt Bakker, dat je steeds effecten meet die er misschien niet eens zijn. “En onderzoekers verwijderen niet alleen data, ze ronden scores en tussenresultaten ook gunstig af. Of ze doen verschillende onderzoeken – niet alleen de loopsnelheid door de gang, maar ook hoe snel mensen opstaan of beginnen met lopen – en selecteren die ene met een resultaat.” Ook kan je je proef net zo lang herhalen, zegt Bakker, tot er alleen op basis van toeval een effect uitkomt.

Daarnaast wordt er op grote schaal met p-waardes geknoeid. Bakker rekende van honderden studies de p-waarde opnieuw uit. “In de helft van de studies week die af! Vrijwel al die studies rapporteerden een kleinere p-waarde dan ik op basis van hun data berekende. En bij vijftien procent van deze studies tastte deze fout berekende p-waarde de conclusie van de studie aan: de p-waarde was bijvoorbeeld niet 0,048, maar 0,051.”

Ook maar een mens

Hoe kunnen we voorkomen dat onderzoekers hun gegevens gaan oppoetsen? Dat is ontzettend lastig, zegt Bakker. “Ten eerste is de onderzoeker ook maar een mens, en mensen maken fouten. P-waardes bewust verkeerd afronden is natuurlijk kwalijk, maar het is lastig om de moraal hoog te houden als je aan alle kanten onder druk wordt gezet. Er is namelijk een sterke publicatiedruk vanuit de universiteit, en de vakbladen waar je in moet publiceren willen alleen maar spannende effecten zien.” Daar begint gelukkig verandering in te komen: sommige vakbladen accepteren studies al op basis van het onderzoeksplan, in plaats van op de resultaten.

Daarnaast worden veel fouten niet expres, maar per ongeluk gemaakt. Bakker: “Sommige statistische afwegingen zijn gewoon heel lastig: wanneer is het bijvoorbeeld goed en wanneer is het slecht om outlyers uit je data te verwijderen? Als je zeker weet dat de extreme waarde wordt veroorzaakt door een foute meting, of wanneer iemand ziek is in plaats van gezond, dan past hij niet binnen je beoogde populatie en brengt hij alleen maar ruis in het onderzoek. Maar als er niets mist lijkt met deze extreme meting, dan moet je goed nadenken voordat je hem verwijdert.” Psychologen moeten beter worden opgeleid om deze keuzes te maken, zegt Bakker, of een statisticus aan hun zijde hebben die hen kan helpen.

Is niet behoorlijk demotiverend, om je vijf jaar lang alleen maar bezig te houden met de zwakheden van je collega’s? “Ja, ik was vaak behoorlijk teleurgesteld. Kan het niet beter?!, vraag je jezelf dan af. Maar aan de andere kant is het ook herkenbaar, en kan ik me inleven in iedereen die zulke fouten maakt. Je komt gewoon voor zoveel keuzes te staan, en moet elke keer die afweging maken: is dit het beste voor de wetenschap of voor mijn eigen studie?” Bakker probeerde ondertussen eigenhandig iets aan het probleem te doen. “Tijdens mijn promotie-onderzoek gaf ik studenten les, zodat ze hier later goed mee om kunnen gaan. Zo hield ik het toch vol.”

Snelcursus p-waarde

De p-waarde is een belangrijk concept binnen de statistiek, maar wordt door veel sociale wetenschappers nauwelijks begrepen. Hier een korte snelcursus. Je wilt nog steeds je onderzoek doen naar de invloed van het lezen van ouderdomswoorden op loopsnelheid. Volgens de regels van de wetenschap moet je eerst een ‘nulhypothese’ formuleren. Dit is de bewering die je aan de kaak wilt stellen – gebaseerd op de kennis die we nu hebben. In dit geval: er is geen verschil tussen loopsnelheid tussen de groepen die wel en geen ouderdomswoorden hebben gelezen.

Vervolgens doe je in je statistiekprogramma op je computer de test – vaak een t-test – die meet of de loopsnelheden van de groepen van elkaar verschillen. Of de nulhypothese dus voorlopig moet worden behouden, of moet worden verworpen. In dat laatste geval geldt de ‘alternatieve hypothese’: dat de gemiddelde loopsnelheden van beide groepen wél verschillen.

Wat verwacht je dat er uit zal komen? Natuurlijk verschillen de gemiddeldes een beetje, het is per definitie onwaarschijnlijk dat de scores van twee verschillende groepen – al zouden ze dezelfde test uitvoeren – precies overeenkomen. Maar hoe sterk ze precies verschillen, dát vertelt de p-waarde, die ook uit de t-test komt rollen. En nu wordt het ingewikkeld. De p-waarde is een getal tussen de 0 en 1.

Hoe kleiner de p-waarde, hoe zekerder je er van kan zijn dat de gemiddeldes verschillen en je de nulhypothese kan verwerpen. Officieel moet je eigenlijk zeggen: hoe kleiner de p-waarde, hoe kleiner de kans dat je de nulhypothese ten onrechte verwerpt en ten onrechte aanvaardt dat de alternatieve hypothese geldt. Eigenlijk betekent dat gewoon: hoe kleiner de p-waarde, hoe waarschijnlijker dat je een effect hebt ontdekt.

Behoorlijk omslachtig, maar in onderzoek wordt veel bewijs vereist voordat wordt besloten dat er een verschil bestaat. De hele onderzoekswereld heeft aangenomen dat je er bij een p-waarde onder de 0,05 zeker genoeg van kan zijn dat de groepsgemiddeldes verschillen. Dan noemen we de p-waarde ‘significant’ en spreken we officieel van een ‘effect’.