Je leest:

Vertrouwen op een blinde scheidsrechter

Vertrouwen op een blinde scheidsrechter

Auteur: | 15 juli 2007

Ook bij taalkwesties wordt het steeds vaker gedaan: even googelen. Als iets veel treffers oplevert bij de populaire internetzoekmachine Google, dan deugt het dus, is de gedachte. Maar klopt dat wel? Over de valkuilen van het Google-tellen.

Wie weet wat het woord berteft betekent? Op internet zijn er 603 pagina’s waarop het voorkomt, dus het moet wel tot het Nederlands behoren, zou je zeggen. Het antwoord is teleurstellend: het betekent helemaal niets. Het is een tikfout voor betreft.

Het hoofdkantoor van Google in Mountain View, Californië. Bron: Google

Het valt nog niet mee een verkeerd getikte versie van betreft te verzinnen die nergens te vinden is (zie ook het kader ‘Rommel op internet’). De meest voorkomende fout, betrefd (eigenlijk eerder een spelfout dan een tikfout), staat op maar liefst 54.100 pagina’s. Is dat veel? Misschien wel. Maar het correcte betreft zelf krijgt 16.600.000 treffers.

Uit dit voorbeeld blijken twee dingen: als je Google gebruikt om taalverschijnselen te tellen, moet je verdacht zijn op tamelijk grote aantallen onbetrouwbare treffers, maar aan de andere kant lijkt dit gecompenseerd te worden door enorme aantallen correcte treffers. Hoe zit dat precies? Hoe betrouwbaar zijn die Google-tellingen?

Meer jongeren?

Als taalvorser kun je Google op verschillende manieren gebruiken. Om te beginnen kun je je eenvoudigweg beperken tot het verzamelen van losse voorbeelden van woordgebruik of zinnen. Dat wordt ook wel ‘kwalitatief onderzoek’ genoemd, en het is betrekkelijk onproblematisch: je kunt snel opzoeken of iets voorkomt, en in de regel kijk je de vindplaatsen een voor een na. Je beoordeelt de betrouwbaarheid door telkens te kijken wat voor soort tekst het is (bijvoorbeeld een gepubliceerd artikel of boek, of een discussie uit een chatroom). Aan grote aantallen heb je niet veel, je zoekt naar mooie, individuele vindplaatsen.

Illustratie: Matthias Giesen

Téllen met Google (het ‘kwantitatieve onderzoek’) is een ander verhaal. Daarbij beschouw je alle Nederlandstalige teksten op internet samen als een verzameling (een ‘corpus’) die een betrouwbaar beeld geeft van de Nederlandse taal.

Mag dat? Is internet representatief voor het totale taalgebruik? Niemand die het weet. Het corpus bevat namelijk geen, of geen systematische, ‘meta-informatie’: van bijna geen enkele pagina weet je wanneer of door wie hij geschreven is. Je kunt wel veronderstellen dat er meer jongeren dan ouderen op internet schrijven, of dat er meer hoger opgeleiden dan lager opgeleiden een weblog hebben, maar je kunt het niet aantonen. Dat maakt de vraag naar de representativiteit van het corpus onbeantwoordbaar.

IJzeren wet

Is het erg dat we niet weten of de door Google doorzochte pagina’s representatief zijn voor alle taalgebruik? Misschien niet echt. In de statistiek geldt namelijk de ijzeren wet dat je beter meer gegevens kunt hebben dan zuiverder gegevens. Hoe meer gegevens je tot je beschikking hebt, hoe meer eventuele onzuiverheden in de grote getallen ten onder zullen gaan. Onzuiverheden zijn namelijk onregelmatigheden. En onregelmatigheden komen minder voor dan regelmatigheden. Daar zijn het juist onregelmatigheden voor.

Nu is internet een ontzagwekkend groot corpus, waarvan we de omvang alleen maar kunnen schatten. In 2005 claimde Google tien miljard pagina’s te hebben geïndexeerd, en dat kunnen er vandaag alleen maar meer zijn. Bij deze getallen verdwijnen een hele hoop van de bezwaren tegen onzuiverheden.

In welk geval tel je het aantal voorkomens van een woord? Bijvoorbeeld als je wilt weten of een woord wel gebruikelijk is in het Nederlands. Neem splog (‘weblog die geheel is gevuld met promotiemateriaal’). We laten Google ernaar zoeken in het Nederlandstalige gedeelte van internet, en die komt tot 33.200 vindplaatsen. Wat zegt zo’n getal precies? Dat is nog niet zo makkelijk te zeggen. In de eerste plaats telt Google alleen pagina’s en geen woorden. Ook al komt een woord duizend keer voor op één pagina, dan telt die pagina toch maar één keer mee. Bijna alle getallen die Google geeft, zijn dus te laag. Ze zeggen niet hoe vaak een woord in het corpus voorkomt, maar alleen op hoeveel pagina’s het woord staat.

Nu kun je proberen om te onderzoeken hoeveel woorden er gemiddeld op een pagina staan. Zo’n schatting is zelfs weleens gedaan. Bij 100 willekeurige Nederlandstalige pagina’s bleek het gemiddelde op 3000 woorden te liggen. Dat is eigenlijk best veel als je beseft dat sommige pagina’s alleen maar de tekst “Welkom op mijn homepage” bevatten. Maar Google doorzoekt ook hele jaarverslagen die als Word- of pdf-document op internet staan. Deze documenten worden, ook al gaat het soms dus om hele boekwerken, als één pagina gezien.

Beste en geachte

Toch schiet je met die schatting van het aantal woorden per internetpagina nog niet veel op. Een woord als geachte komt op relatief veel pagina’s voor (2.130.000), zij het heel vaak maar één keer per pagina, hoe lang die pagina ook is. Dat komt doordat het vaak alleen in de aanhef van een brief staat. Bij een vergelijkbaar woord als beste is de kans groot dat het vaker per pagina voorkomt.

Verder zou je eigenlijk ook nog moeten weten hoe groot het totale corpus is waar je in zoekt. Als iets op 33.200 pagina’s wél voorkomt, op hoeveel pagina’s komt het dan níét voor? Dit is wel te onderzoeken, maar ook hier zijn de uitkomsten niet altijd even betrouwbaar (zie het kader ‘Hoeveel Nederlandse pagina’s?’).

Hoewel je dankzij Google-tellingen wel kunt zeggen dat bijvoorbeeld berteft honderden malen en splog duizenden malen voorkomt in het Nederlands, zeggen absolute aantallen dus niet zo veel. Je kunt er niet op vertrouwen, en je weet niet precies wat ze betekenen. Daar komt nog eens bij dat de getallen soms binnen een paar dagen aanmerkelijk kunnen veranderen. Vierentwintig uur per dag grazen kleine programma’s (‘Googlebots’) op internet, en passen ze de Google-getallen aan. Daardoor kan een absoluut getal van enkele honderdduizenden binnen een paar dagen gemakkelijk meer dan een miljoen worden.

Zo zal geen enkel getal uit dit artikel bij lezing nog precies kloppen. Zelfs tijdens het schrijven en corrigeren veranderden de getallen voortdurend, en soms met honderdduizenden tegelijk. Ook lijkt Google soms maar een kleiner deel van zijn database te onderzoeken. In het kader ‘Hoeveel Nederlandse pagina’s?’ wordt het aantal Nederlandstalige pagina’s geschat op 450 miljoen, maar er is ook weleens een dag dat het totaal niet boven de 150 miljoen uitkomt. Dat scheelt nogal, en dat beïnvloedt alle andere absolute getallen (die naar verhouding lager worden).

Maar hoe zit het dan met relatieve aantallen? Kun je niet steeds twee varianten van één woord(groep) vergelijken en alleen de verhouding beoordelen? Stel, je weet niet meer of het nu in eerste instantie of in de eerste instantie is. Tik in Google als zoekterm “in eerste instantie” (met aanhalingstekens, want anders krijg je ook pagina’s waarop deze drie woorden los van elkaar voorkomen) en “in de eerste instantie”. Beperk de zoekruimte voor de zekerheid tot “pagina’s in het Nederlands”. Wat blijkt? De combinatie “in eerste instantie” levert 3.860.000 treffers op, en “in de eerste instantie” 104.000. Conclusie: de meeste mensen gebruiken in eerste instantie. Dat lijkt een prima middel om deze taalkwestie op te lossen. Maar zelfs bij het relatieve tellen zitten er adders onder het gras.

Rommel op internet

Het aantal pagina’s op internet is inmiddels zo groot, en Google ‘kent’ zo veel pagina’s, dat elke spel- en tikfout die ooit weleens door iemand gemaakt wordt, onmiddellijk in de cijfers opduikt. Neem nu het woord betreft. De getallen achter de zoektermen zijn het aantal treffers dat Google vindt op Nederlandstalige pagina’s:

betreft 16.600.000 betrefd 54.100 *beteft*12.100 *beterft*740 *berteft*603 *betrft*565 betrefdt 377 *bedreft*339 *bettreft*246 *betreeft*235 *betreefd*47 *bbetreft*46 *bertefd*35 *bertefdt*1

Het woord betref komt op 313.000 pagina’s voor, maar daar zitten ook Afrikaanse bij (Google ziet blijkbaar niet altijd goed wat Nederlandstalig is), en in veel gevallen is het geen tikfout voor betreft, maar bijvoorbeeld een afbreking in het woord betref-fende.

Restaurant De Pannenkoek

Als je iets wilt tellen, dan moet je het kunnen onderscheiden van alle andere dingen. Als je mensen met blond haar wilt tellen, dan moet je ze kunnen onderscheiden van mensen met een andere haarkleur (of kale mensen). Datzelfde geldt voor het tellen van taalverschijnselen. Dat kan zelfs bij het tellen van losse woorden al een probleem zijn.

Een heel eenvoudig voorbeeld. Stel, je wilt weten hoe vaak de spelling pannekoek tegenover pannenkoek voorkomt (267.000 tegenover 279.000). Dan krijg je bijvoorbeeld te maken met het feit dat beide woorden ook als eigennaam bestaan. Wil je die meetellen? Google kan het verschil niet zien, al was het alleen al doordat de zoekmachine geen onderscheid maakt tussen hoofdletters en kleine letters. Maar als je ze meetelt, wordt het beeld dan niet ernstig vertroebeld als er een populair restaurant De Pannenkoek bestaat waar veel reclame voor wordt gemaakt en dat vaak op internetsites wordt genoemd? Zijn dat wel ‘echte’ vindplaatsen?

Nog een probleem: Google ziet geen leestekens. Stel, je zoekt op een woordgroep, bijvoorbeeld “groter dan” versus “groter als”. Dan vind je 1.770.000 en 166.000 pagina’s, dus een verhouding van 91:9. Maar je krijgt ook ‘onzuivere’ pagina’s waar deze twee woorden in verschillende zinnen staan, bijvoorbeeld in de opeenvolgende zinnen “(…) de verschillen zijn groter. Dan denk je (…)” (dit voorbeeld is niet verzonnen). Is dat erg? Is het niet zo dat die vervuiling net zo veel doorwerkt in de getallen bij groter dan als bij groter als? Ook hier geldt weer: je kunt het wel veronderstellen, maar je zou het moeten checken. Je moet niet proberen slimmer te zijn dan de feiten.

Op zijn kop

Gelukkig is er aan dit probleem wel iets te doen. Je kunt door het nemen van een steekproef best schatten hoe groot de vervuiling in je getallen is. Dat gaat zo: je zoekt op “groter dan”. Daarvan bekijk je bijvoorbeeld 50 verschillende voorkomens. Je kunt de eerste 50 nemen, maar het best is 50 willekeurige, door bijvoorbeeld steeds de eerste treffer te nemen van elk tiental dat Google weergeeft, of elk honderdste tiental in zijn geheel.

Het bekijken is betrekkelijk gemakkelijk, omdat Google een klein stukje van de pagina als vindplaats weergeeft. In dat stukje staat de gezochte frase vet gedrukt. Kijk nu of dit een ‘echte’ vindplaats is. De onechte en de onduidelijke tel je niet mee, en ook de pagina’s waar letterlijk gesproken wordt over de vraag “Is het nu groter als of groter dan?” streep je weg. Dan zul je zien dat van die vindplaatsen van “groter dan” vrijwel alles ‘echt’ is, terwijl van 50 willekeurige pagina’s met “groter als” er maar ongeveer 15 ‘echt’ zijn. Dat betekent dat de vervuiling bij het tweede getal ongeveer 70% is, en dat de verhouding “groter dan”: “groter als” dus niet 1.770.000: 166.000, maar 1.770.000:49.800 is. Dat komt neer op 97:3 in plaats van de ‘onzuivere’ 91:9. Dat scheelt aanmerkelijk. In sommige gevallen kan dit een verhouding helemaal op zijn kop zetten.

Hoeveel Nederlandse pagina’s?

Het aantal internetpagina’s zou je makkelijk moeten kunnen bepalen. Tik in het Nederlandstalige deel van Google een term in, en doe dat nog een keer maar nu met een minnetje ervoor (dan worden alle pagina’s geteld waar de term níét op voorkomt). De som van die twee moet het totale aantal Nederlandstalige websites geven. In theorie zou je voor iedere term altijd hetzelfde totaal moeten krijgen, maar als je het test met een paar veelvoorkomende woorden en één nooit voorkomend woord, krijg je aanmerkelijke verschillen. Er ontstaan nog vreemdere resultaten als je dezelfde term nog eens bevraagt met een plusje ervoor, waarmee je alle pagina’s opvraagt waar per se een bepaald woord op staat.

Hoelang

Soms wil je weten hoelang een bepaald woord al bestaat in het Nederlands. Kun je ook dat achterhalen met Google? Niet zonder meer: je weet meestal niet wanneer een pagina geschreven is. Maar er zijn delen van het corpus (subcorpora) die wel informatie over tijd en plaats bevatten. Die zijn niet zo enorm groot als het hele corpus, maar soms nog altijd aanzienlijk. Zo kun je je zoekactie beperken tot een bepaalde site met bijvoorbeeld het archief van een krant, en krantenartikelen zijn uiteraard meestal voorzien van een publicatiedatum.

Of je zoekt in de Google Discussiegroepen, die gearchiveerd zijn sinds 1980. Als je “geavanceerd zoeken binnen discussiegroepen” kiest, kun je zelfs bepaalde perioden selecteren. Je kunt dit niet zonder meer gebruiken om te onderzoeken of een woord de ene periode vaker gebruikt werd dan de andere, want in de loop der jaren zijn die discussiegroepen groter geworden en daarmee worden alle getallen groter. Je zou de cijfers moeten corrigeren naar de grootte van het forum in een bepaalde periode.

Dat is niet alleen lastig, maar in de beginperiode zijn die internetforums bovendien tamelijk klein van omvang, waardoor de getallen weer niet zo betrouwbaar zijn. Maar je kunt wel kijken wanneer een bepaalde uitdrukking voor het eerst in zo’n discussiegroep opduikt. Zo schrijft op 7 maart 1998 voor het eerst iemand “Boeiuh!”

Met Google kun je dus wel degelijk taalonderzoek doen. Je kunt in het hele corpus naar taalverschijnselen zoeken, je kunt in subcorpora zelfs uitzoeken wanneer een verschijnsel voor het eerst optreedt. Alleen tellen is moeilijk. Want de computer kan niet tellen.

Dit artikel is een publicatie van Genootschap Onze Taal.
© Genootschap Onze Taal, alle rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 15 juli 2007
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.