De opinie peilen is een vak apart. Maar ook ‘consumenten’ van opiniepeilingen moeten op hun hoede zijn. Is een verschil van één zetel wel significant? Heeft het onderzoeksbureau rekening gehouden met non-respons?
53% van de Nederlanders is tegen de aanschaf van JSF-straaljagers, meldt opiniepeiler Maurice de Hond op 13 oktober. “Hoe weten ze dat?”, vraagt u zich misschien af, “Mij hebben ze niets gevraagd!” En gelijk heeft u. Die 53% is maar een schatting en zolang niemand u heeft gevraagd of u voor of tegen JSF-straaljagers bent, is niets zeker.
Wat is eigenlijk zeker? Kan het ook een beetje meer of minder dan 53% zijn, en zo ja, hoeveel meer of minder? Is in werkelijkheid misschien slechts een minderheid van de Nederlanders tegen de aanschaf van Joint Strike Fighters?
Alleen een referendum kan absolute zekerheid geven over de vraag of een meerderheid voor of tegen de aanschaf van Joint Strike Fighters is. Toch kunnen opiniepeilingen vaak een goede inschatting geven.
Hoewel alle opiniepeilers claimen de betrouwbaarste resultaten te hebben, ondervragen ze allemaal slechts een beperkt aantal mensen, variërend van een paar honderd tot enkele duizenden. De hoop is natuurlijk dat deze mensen representatief zijn voor de hele Nederlandse bevolking, maar geen enkel onderzoeksbureau ontkomt aan de kans dat zijn selecte groepje ondervraagden iets heel anders vindt dan de rest van Nederland. Met wiskunde heeft men echter een instrument in handen om iets zinnigs te zeggen over de betrouwbaarheid van opiniepeilingen. Dit artikel bespreekt enige elementaire steekproeftheorie en hoe de resultaten van die theorie geïnterpreteerd moeten worden.
Statistische uitspraken
In de meest elementaire theorie wordt de steekproef aselect (‘zonder aanzien des persoons’) samengesteld. Dat wil zeggen dat iedereen een gelijke kans heeft om ondervraagd te worden door de opiniepeiler. Om de gedachte te bepalen: schrijf de namen van alle Nederlanders ouder dan 18 jaar op kleine briefjes, stop ze in een doos, goed schudden, en trek willekeurig tweeduizend briefjes uit de doos. In de praktijk is het niet zo gemakkelijk, maar laten we eens doen alsof. Om het voorbeeld actueel te houden, ondervragen we deze tweeduizend Nederlanders over hun stemgedrag bij de komende verkiezingen.
Stel nu eens dat 26% van de ondervraagden (520 personen) van plan is CDA te stemmen en 25% van de ondervraagden (500 personen) PvdA. Het is de vraag of dit verschil significant is, met andere woorden: kunnen we er met behoorlijke zekerheid van op aan dat de rest van Nederland ook in meerderheid CDA boven PvdA zal verkiezen?
Eerst moeten we weten wat er precies wordt bedoeld met ‘behoorlijke zekerheid’. Laten we afspreken dat 95% zekerheid voldoende is. Overal waar ‘behoorlijk zeker’ staat, mag u vanaf nu lezen: ‘Wat de auteur van dit artikel hier beweert, is waar met een kans van 95%.’ Wie zekerder van z’n zaak wil zijn, kiest voor bijvoorbeeld 98% zekerheid. Maar voor niets gaat de zon op: meer zekerheid gaat ten koste van krachtige uitspraken.
Betrouwbaarheidsintervallen
Terug naar het fictieve voorbeeld. Berekeningen aan de steekproef leveren de volgende statistische uitspraken op:
(1) Het percentage van alle Nederlanders dat op dit moment van plan is CDA te stemmen ligt met behoorlijke zekerheid tussen de 24,05% en de 27,95%.
En:
(2) Het percentage van alle Nederlanders dat op dit moment van plan is PvdA te stemmen ligt met behoorlijke zekerheid tussen de 23,08% en de 26,92%.
Deze beweringen zijn in onderstaand diagram geïllustreerd.
De verticale lijntjes zijn zogenaamde 95%-betrouwbaarheidsintervallen, waarop met behoorlijke zekerheid het echte percentage CDA- dan wel PvdA-stemmers zich bevindt. Ligt CDA aan kop in deze fictieve peilingen? Het is niet zonder meer ‘met behoorlijke zekerheid’ te zeggen.
Guido Schmeits
Exacte percentages zijn dus niet te geven, maar wel kunnen er met behoorlijke zekerheid grenzen worden gesteld. Die grenzen liggen symmetrisch rond het geschatte percentage en het gebied ertussen heet een 95%-betrouwbaarheidsinterval (de groene en rode lijn in het diagram). Als de grenzen dicht bij elkaar liggen, dan wijkt het echte percentage weinig af van de geschatte waarde. Statistische uitspraken zijn dus sterker naarmate betrouwbaarheidsintervallen kleiner zijn. En kleine betrouwbaarheidsintervallen verkrijgt men door grote steekproeven te nemen (zie volgend kader).
Guido Schmeits
De afstand van het geschatte percentage tot de grens van zijn betrouwbaarheids- interval heet ook wel de marge. De marge is dus de helft van de lengte van het betrouwbaarheidsinterval. Voor de marge bestaat een eenvoudige vuistregel (bij betrouwbaarheid 95%): deze is hooguit gelijk aan 0,98 gedeeld door de wortel uit het aantal respondenten.
Subtiel
Het is een veel voorkomend misverstand dat er ‘geen significant verschil’ tussen percentages zou bestaan wanneer hun betrouwbaarheidsintervallen elkaar overlappen, zoals in ons voorbeeld. Die redenering is helaas te kort door de bocht; geschatte percentages moeten wiskundig buitengewoon voorzichtig worden vergeleken.
Een statistische berekening in het voorbeeld levert het volgende resultaat op:
Zelfs als CDA in werkelijkheid minder stemmen zou krijgen dan PvdA, dan is zijn voorsprong van 1 procentpunt of meer in de peiling nog altijd mogelijk met een kans van 27,6%.
Conclusie: de voorsprong van CDA kan door het toeval zijn bepaald, zelfs als CDA in werkelijkheid kleiner is dan PvdA. Dat CDA aan kop zou liggen is in dit voorbeeld niet met behoorlijke zekerheid te zeggen.
Hoewel eigenlijk ieder steekproefresultaat opnieuw ‘doorgerekend’ zou moeten worden, kunnen in de praktijk heel kleine verschillen het beste meteen gewantrouwd worden. Een zogenaamde nek-aan-nekrace, waarbij twee partijen elkaar op één zetel na – ofwel 0,67 procentpunt – afwisselen als koploper, zegt meer over de betrouwbaarheid van peilingen op zo’n kleine schaal dan over echte schommelingen in de publieke opinie.
Onderstaande links verwijzen naar websites waarop berekeningen uitgevoerd kunnen worden naar de grootte en betrouwbaarheid van steekproeven.
Tot zover het theoretische verhaal. In de praktijk zijn steekproeven echter bijna nooit volkomen aselect en gaat de theoretische berekening niet meer op.
Stratificatie
Idealiter is een steekproef representatief voor de hele bevolking. Dat betekent dat er evenveel vrouwen als mannen in de steekproef moeten voorkomen en dat bijvoorbeeld het percentage ondernemers in de steekproef even groot is als het percentage ondernemers in de hele samenleving. Op die manier hoopt men dat de uitkomsten van de steekproef een goed beeld geven van wat er in de samenleving speelt.
Aselecte steekproeven worden echter door het toeval samengesteld en daardoor is het mogelijk dat sommige bevolkingsgroepen onder- of oververtegenwoordigd zijn. Aselecte steekproeven zijn daardoor niet zonder meer representatief voor de hele bevolking.
Dus waarom het toeval niet een handje helpen? Om een representatieve steekproef te krijgen, deelt men de bevolking eerst in groepen in, de zogenaamde strata. Men onderverdeelt bijvoorbeeld naar geslacht, hoogst genoten opleiding, afkomst, leeftijd, enzovoorts. Dit proces heet ook wel stratificatie.
Nadat de strata zijn vastgesteld, trekt men uit ieder stratum een aselecte steekproef. De grootte van elke steekproef wordt bepaald door de vertegenwoordiging van de bevolkingsgroep in de hele samenleving. Op 1 september 2006 was bijvoorbeeld 5,4% van de Nederlanders man en van niet-westerse afkomst. Het is redelijk om er dan voor te zorgen dat het aantal mannen van niet-westerse afkomst in het hele onderzoek ook 5,4% bedraagt.
Het nadeel van stratificatie is dat er veel gegevens over de samenstelling van de bevolking voor nodig zijn. Bovendien is het vaak niet duidelijk welke strata gekozen moeten worden. Dat verschilt ook nog eens per onderzoek. In een opiniepeiling naar de politieke voorkeur van de kiezers zullen variabelen als geslacht, opleiding, beroepsuitoefening en woonplaats beslist een rol spelen. Daar staat tegenover dat euromuntenverzamelaars en mensen met zweetvoeten waarschijnlijk niet apart ondervraagd hoeven worden. Maar tussen deze extreme voorbeelden ligt een uitgestrekt grijs gebied. Hebben kijkers van het NOS-journaal een andere politieke voorkeur dan niet-kijkers? En krantenlezers? Chronisch zieken? Huizenbezitters? Alleenstaanden? De lijst kan eindeloos worden aangevuld.
Statistische blunder
In 1936 beging het Amerikaanse tijdschrift Literary Digest een statistische blunder. Om de presidentsverkiezingen te voorspellen stuurde de Digest per briefkaart een enquête uit onder maar liefst 10 miljoen kiesgerechtigden. Zo’n 2,3 miljoen briefkaarten kwamen ingevuld terug, een ontzettend groot aantal voor een steekproef (zelfs overbodig groot, want de marge voor 95% betrouwbaarheid bedraagt bij 2,3 miljoen respondenten minder dan 0,07 procentpunt!).
Op grond van zijn peiling voorspelde de Literary Digest vervolgens dat de Republikeinse kandidaat Alf Landon met 55% de presidentsverkiezingen zou gaan winnen. Ondanks het grote aantal respondenten bleek de voorspelling van het blad onjuist. Franklin Delano Roosevelt klopte Landon met maar liefst 61% van de stemmen, en de poll van Literary Digest werd een historisch voorbeeld van hoe het niet moest.
Er zijn twee theorieën over wat er misging. Ten eerste was de steekproef niet aselect samengesteld. Namen en adressen werden namelijk willekeurig getrokken uit kentekenregisters en telefoonboeken. Daardoor werden mensen zonder auto en telefoon (in die tijd meer dan nu!) niet ondervraagd. Laat dat net de arme mensen zijn geweest, die in het algemeen meer geneigd waren op Roosevelt te stemmen dan op Landon…
Een tweede theorie zegt dat de mensen die bereid waren de briefkaart terug te sturen vooral de hoger opgeleiden en de rijken waren, die vaker dan gemiddeld op Landon zouden stemmen. Onderzoek heeft laten zien dat waarschijnlijk beide effecten verantwoordelijk zijn geweest voor de uitglijder van Literary Digest, die niet lang daarna de tent kon sluiten.
Non-respons
De opiniepeiler leunt tevreden achterover. Ze heeft de afgelopen dagen hard gewerkt om de vragenlijsten in orde te maken en om een steekproef van drieduizend Nederlanders samen te stellen. Ze vermoedt dat de variabele ‘bevolkingsdichtheid’ invloedrijk zal zijn in haar onderzoek (naar agressie in het verkeer) en daarom heeft ze Nederland verdeeld in verschillende zones, van zeer verstedelijkt tot landelijk. In elke zone neemt ze een aselecte steekproef van de juiste grootte. Zo is haar onderzoek in ieder geval representatief ten opzichte van de variabele ‘bevolkingsdichtheid’. Het callcenter is aan het werk gezet en de opiniepeiler leunt, zoals gezegd, tevreden achterover.
In de pauze luncht ze met een van de telefonisten van het callcenter. Deze is vanochtend begonnen aan de eerste interviews en heeft teleurstellend nieuws. “Ze smijten tegenwoordig steeds vaker de hoorn op de haak!”, moppert hij, “en het zijn vooral de jonge mensen uit de grote stad die dat doen. Druk, druk, geen tijd. Ouderen vinden het tenminste nog wel eens gezellig als je ze opbelt.” De opiniepeiler verslikt zich in een slok karnemelk. Daar gaan haar zorgvuldig gekozen strata!
Mensen die niet willen meewerken aan een opiniepeiling vormen ook een bevolkingsgroep. Als deze bevolkingsgroep hetzelfde denkt en vindt als de rest van Nederland, is er niets aan de hand, maar dat is niet altijd het geval. Het zouden bijvoorbeeld drukke mensen met kinderen kunnen zijn, die minder snel geneigd zijn om aan een enquête deel te nemen. Drukke mensen met kinderen zijn in dat geval ondervertegenwoordigd in de peiling, die daardoor niet meer representatief is. We spreken in zo’n geval van een vertekening van de resultaten door non-respons.
Non-respons kan tot grote fouten leiden. Een bekend voorbeeld is een opiniepeiling van het Amerikaanse blad Literary Digest uit 1936 (zie kader). Mede door non-respons schatte het blad het aantal Rooseveltstemmers 20 procentpunten te laag in. De enorme grootte van de steekproef (2,3 miljoen) heeft deze inschattingsfout niet kunnen voorkomen.
Om de negatieve effecten van non-respons te compenseren onderzoekt men of alle bevolkingsgroepen evenredig zijn vertegenwoordigd. Net als bij stratificatie bekijkt men uitsluitend onderverdelingen van de populatie die relevant kunnen zijn voor de uitkomst, en waarvan men over voldoende gegevens beschikt. Men spreekt ook wel van poststratificatie. Heeft men een over- of ondervertegenwoordigde bevolkingsgroep ontdekt, dan kan men de negatieve effecten compenseren door de antwoorden van die groep mensen zwaarder of minder zwaar te laten wegen.
Conclusie
Aselecte steekproeven zijn wiskundig goed te interpreteren. De nauwkeurigheid van een aselecte steekproef is af te lezen aan de lengte van de betrouwbaarheidsintervallen. In de praktijk probeert men de peiling nog nauwkeuriger te maken door de steekproef kunstmatig representatief te maken. Tegelijkertijd ondervindt men hinder door non-respons, wat de resultaten weer minder nauwkeurig maakt. Naar welke kant de balans ook doorslaat, het is in beide gevallen lastig om te bepalen hoe groot het effect precies is.
Verschillende onderzoeksbureaus hanteren verschillende methodes om representativiteit te bevorderen en non-respons te compenseren. Vaak geven de bureaus hun methode niet prijs. Dat is het geheim van de smid.
Dit artikel werd geschreven in samenwerking met Eduard Belitser.