Waarom Google zoveel over jou weet

De eerste zoekmachines werkten met simpele formules die trefwoorden turfden. Nu bepalen algoritmes op basis van wel duizend signalen wat jij krijgt voorgeschoteld. Daardoor weten zoekmachines heel veel over gebruikers.

21 juni 2023

“Ik zoek een muis.” Klinkt eenvoudig, maar eigenlijk is het best een lastige vraag voor een zoekmachine. Want bedoel je een computermuis of eentje met snorharen? “Zoekmachines beschikken tegenwoordig wel over zo’n duizend signalen om te achterhalen wat je precies bedoelt”, weet Evangelos Kanoulas, hoogleraar Information Retrieval aan de Universiteit van Amsterdam. “Bijvoorbeeld jouw locatie, waar je op klikt, hoe lang je op een website kijkt, hoe ver je scrolt en hoe je de muis gebruikt.”

Het is bijna 33 jaar geleden dat de allereerste zoekmachine voor het internet werd gelanceerd, in september 1990. Onderzoekers van de McGill University in het Canadese Montreal lanceerden toen Archie, een hulpmiddel waarmee je zogeheten FTP-bestanden kon vinden. Voordat er websites waren (de eerste website van onderzoeksinstituut CERN was er pas een jaar later), wisselden de allereerste internetgebruikers bestanden uit via servers, met behulp van het FTP-protocol. Archie maakte het mogelijk om die bestanden te vinden, maar hij was weinig vergevingsgezind: als je een typefoutje maakte, kon Archie al niks meer voor je doen. Bovendien zocht Archie alleen op titel; de inhoud van de bestanden was nog niet doorzoekbaar.

Archie, de in Canada ontwikkelde zoekmachine, behandelde op het hoogtepunt in 1993 zo’n vijftigduizend zoekvragen per dag.
The Dubnob | Wikimedia

Advertenties op maat

De techniek achter Archie bouwt voort op het werk van bibliothecarissen, die al in de jaren zeventig computers gebruikten om boeken te indexeren. Behalve de titel zetten zij trefwoorden van boeken in een systeem, waardoor gebruikers de boeken makkelijker konden vinden. Deze eerste zoekmachines werkten vrij simpel: de gebruiker typt een trefwoord in, en de zoekmachine rangschikt de resultaten op basis van de frequentie waarin het trefwoord voorkomt. Als je bijvoorbeeld ‘Frans de Waal chimpansee’ intikt, dan zal hij eerder de boeken van Frans de Waal dan die van Jane Goodall laten zien. In de relatief overzichtelijke boekenwereld is zo’n systeem nog vol te houden, maar toen het internet halverwege de jaren negentig explodeerde, kwam er behoefte aan betere indexering.

Yahoo!, uit 1994, was al een hele stap vooruit. Deze zoekmachine kon websites vinden op basis van een door mensen zelf gemaakte beschrijving. Yahoo! was ook de eerste zoekmachine die advertenties naast de zoekresultaten plaatste. Die advertenties werden gekoppeld aan de zoektermen van de gebruiker. Dus ook toen kreeg je al advertenties op maat voorgeschoteld.

WebCrawler, uit datzelfde jaar, deed ook iets nieuws: het was de eerste zoekmachine die complete websites en bestanden kon doorzoeken. In die tijd gebruikten zoekmachines alleen nog maar simpele formules om pagina’s te rangschikken op volgorde van relevantie. Zo telden lidwoorden bijvoorbeeld minder zwaar mee, en kwamen pagina’s die meer zoektermen bevatten hoger in het overzicht te staan dan pagina’s die minder zoektermen bevatten. Maar veel verder ging de wiskunde achter zoekmachines nog niet.

Algoritmewedstrijd

In 1996 veranderde dat, toen de Chinese softwareontwikkelaar Robin Li een zoekmachinealgoritme ontwikkelde dat beter in staat was om het kaf van het koren te scheiden. Dat deed hij door te kijken naar links. Kanoulas: “Dit algoritme geeft een score aan elke webpagina. Als veel websites naar jouw website linken, en veel mensen gebruiken jouw website als referentie, dan wordt dat als een stem van vertrouwen gezien. Websites die meer vertrouwen hebben, komen hoger in de zoekresultaten.” Je kunt je dus voorstellen dat een website van bijvoorbeeld een groot nieuwsmedium, zoals The New York Times of The Guardian, waar veel andere websites naar linken, meer vertrouwen geniet dan de weblog van een hobbyist.

Li, die toen bij een Amerikaanse uitgeverij in New Jersey werkte, noemde het algoritme RankDex en vroeg er in 1996 patent op aan. In datzelfde jaar werkten aan de westkust van de VS twee computerwetenschappers aan de Stanford University aan een zeer gelijkwaardig algoritme. Zij noemden het PageRank, en verwezen in hun patentaanvraag naar het RankDex-algoritme. Deze wetenschappers waren Larry Page en Sergey Brin, en wisten hun algoritme al snel om te vormen tot een commerciële zoekmachine. In 1998 lanceerden zij Google! – toen nog met uitroepteken – en met de kenmerkende gekleurde letters. Het bleek aan te slaan en Google werd al snel de grootste zoekmachine ter wereld, en is dat nog altijd. Google betaalde Stanford 1,8 miljoen dollar in aandelen voor het gebruik van het patent; Stanford verkocht die aandelen in 2005 voor 336 miljoen dollar. Toch heeft ook het algoritme RankDex Li geen windeieren gelegd. Hij richtte in 2000 Baidu op, en dat werd de grootste Chinese zoekmachine en de op drie na grootste wereldwijd.

Nepwebsites

Ondanks dat Google heel succesvol werd dankzij zijn PageRank-algoritme, liep de zoekmachine ook al snel tegen beperkingen aan. Kanoulas: “Mensen gingen er misbruik van maken. Om de populariteit van je website omhoog te krijgen, kon je een enorme hoeveelheid nepwebsites bouwen die allemaal verwezen naar jouw website. Zo werd het algoritme in de war gebracht.” Daarom zochten techbedrijven naar andere signalen om een goede rangschikking te krijgen, en zo zijn ze uiteindelijk op die duizend signalen uit gekomen. “Zoekmachines zijn zelfs in staat om twee gebruikers die dezelfde laptop gebruiken, van elkaar te onderscheiden, op basis van het soort vraag dat ze stellen.” Dit doen ze door cookies, kleine tekstbestandjes, op je laptop of smartphone te plaatsen.

Zoekmachines weten dus heel veel over gebruikers. Dat maakt het rangschikken van zoekresultaten niet alleen beter, het maakt ook nóg meer gepersonaliseerde advertenties mogelijk. Reken maar dat je advertenties voor kinderkleding of positiekleding krijgt voorgeschoteld als je dingen over zwangerschap hebt gegoogeld – tenzij je diep in de instellingen duikt, maar dat is nog niet eenvoudig (al is hier wel een Engelstalige gids die je op weg helpt).

Privacyschandaal

Zoekmachinebedrijven moeten al die data anoniem over jou verzamelen, zodat gegevens niet tot jou terug zijn te herleiden. Maar in 2006 ging dat faliekant mis. Het Amerikaanse AOL bracht een database naar buiten met twintig miljoen zoekopdrachten van ruim 650.000 gebruikers in drie maanden tijd. Hoewel er geen individuele gebruikers in het overzicht stonden, stonden er wel persoonlijke gegevens in waardoor je, met een beetje moeite, de gegevens toch tot individuele gebruikers kon herleiden. The New York Times wist van meerdere gebruikers de namen te achterhalen. AOL moest uiteindelijk een schikking betalen van vijf miljoen dollar.

AOL had wel goede, weliswaar naïeve intenties. Het wilde die data namelijk beschikbaar stellen voor onderzoeksdoeleinden, maar behalve een informatiebron werd het ook een inspiratiebron voor filmmakers. Zo werd er een film gemaakt over ‘User 711391’ getiteld I love Alaska. Daarin zie je hoe een vrouw van middelbare leeftijd haar seksleven nieuw leven inblaast met een minnaar, en droomt van een verhuizing naar Alaska. Een verhaal dat dus niet is verzonnen door de filmmakers, maar is gebaseerd op zoekresultaten van een echt persoon. We herkennen allemaal wel dat we zoekmachines veel persoonlijke dingen vragen. Niet voor niets is ‘Google is je vriend’ een bekende uitdrukking, toch?

Inmiddels zijn er betere manieren om écht anoniem zoekmachinedata te delen, en zijn er privacy-instellingen en privacyvriendelijkere zoekmachines (zie kader ‘Zoek eens anders’).

DuckDuckgo is een privacyvriendelijke zoekmachine.
DuckDuckGo

Zoek eens anders

Google, Bing of Yahoo – ze werken allemaal min of meer hetzelfde en zijn niet inherent privacyvriendelijk. Dat wil zeggen: pas als je in de instellingen duikt, kun je voorkomen dat er persoonlijke informatie over jou wordt opgeslagen. Deze zoekmachines doen het anders:

DuckDuckGo – Meest populaire privacyvriendelijke zoekmachine.
Ecosia – Privacyvriendelijk, én met elke zoekopdracht draag je bij aan herbebossingsprojecten.
Startpage – Maakt gebruik van Google, maar dan zonder het opslaan van je zoekgeschiedenis. Opgericht in Nederland (maar niet te verwarren met startpagina.nl).

Filterbubbels en nepnieuws

Een nog altijd actuele worsteling is het bestrijden van ‘_filter bubbles_’, waarin je vooral resultaten krijgt die aansluiten bij jouw wereldbeeld, en nepnieuws. Vooral rond de Amerikaanse presidentsverkiezingen wemelde het van nepnieuws en eenzijdige berichtgeving op websites en sociale media, en dat beïnvloedde ook de zoekresultaten. “Filterbubbels zijn het gevolg van het personaliseren van zoekresultaten”, vertelt Kanoulas. “Maar die personalisatie is ook wel handig, want zonder krijg je irrelevante resultaten.” Volgens Kanoulas zoeken de techbedrijven daarom naar een balans tussen exploitatie en exploratie. “Exploitatie betekent dat ze alles wat ze over je weten gebruiken om jouw zoekresultaten te personaliseren. Exploratie houdt in dat ze proberen uit te zoeken wat je nog meer leuk zou vinden, en wat misschien niet direct in je straatje past. Het zoeken naar die balans blijft een uitdaging.”

Nederlands zoeksucces

Zoeken.nl, vinden.nl, maar vooral ilse.nl – wie eind jaren negentig het web op ging, maakte ongetwijfeld wel eens gebruik van ilse.nl, Nederlands eerste en grootste zoekmachine. De Eindhovense student Wiebe Weikamp knutselde Wiebe’s Index (Windex), die op servers van de Hogeschool Eindhoven draaide, zelf in elkaar. Maar al snel bleek hij duizenden bezoekers per dag te hebben. Hij betrok zijn medestudenten Merien ten Houten en Robert Klep erbij en in 1996 lanceerden zij ilse.nl, dat in eerste instantie alleen maar Nederlandse pagina’s kon vinden. “We hadden veel geluk met de timing”, vertelt Ten Houten over het avontuur. “Ilse kwam net op het moment dat het internet bij het grote publiek doorbrak. Daarnaast kozen we bewust voor een vriendelijke uitstraling. Dat sloot beter aan bij ‘de gewone man’ dan de nerdy zoekmachines die er voor die tijd waren.” Ilse werd razend populair, en zelfs in 2001, toen Google al drie jaar met zijn opmars bezig was, was het nog altijd de populairste zoekmachine in Nederland. Maar de internetzeepbel barstte in dat jaar. Veel dotcom-bedrijven gingen failliet en ook Ilse kreeg het moeilijk. Uiteindelijk ging toch Google er met de Nederlandse gebruikers vandoor. “Google had veel meer budget voor onderzoek en techniekontwikkeling dan wij. Uiteindelijk gaat het om de techniek, want een zoekmachine voor het Nederlandse taalgebied is niet zoveel anders dan voor het Engels.”

Privacyblunder

Ook Ten Houten maakte trouwens een grote privacyblunder, door een journalist van het Algemeen Dagblad te laten zien waarop Philips-werknemers (of specifieker: gebruikers in een Philips-gebouw) zochten. “Dat was een stomme fout, en daarna zijn we alleen maar privacybewuster geworden. Wij stonden het bijvoorbeeld niet toe dat adverteerders cookies plaatsten op de computers van gebruikers. Wat dat betreft liepen we ver vooruit op de privacywetgeving.”

Google is je vriend

Advertenties op maat

Algoritmewedstrijd

Nepwebsites

Privacyschandaal

Filterbubbels en nepnieuws

Interview met de auteur van ‘Medusa in de spiegel’

Vijf vragen over de jetlag

Waarom je niet naar de 14-daagse weersverwachting moet kijken

Europ of Euronder: Casper de Vries

Wat betekent het om een proefschrift te schrijven?

Stadsdieren: de paling in het Oosterdok

Herken jij het middeleeuwse beest?

Stuur ons een reactie, vraag of suggestie