Naar de content

Bouw je eigen zoekmachine

Bekroond profielwerkstuk KNAW Onderwijsprijs

Jan Kees Steenman voor KNAW

Hoe versloeg Google de concurrentie om de meest populaire zoekmachine te worden? VWO-scholiere Lüke van den Wittenboer (Bataafs Lyceum, Hengelo) zocht het uit in haar profielwerkstuk en bouwde zelf ook zoekmachines. Ze werd tweede bij de KNAW Onderwijsprijs.

Welke internetgebruiker herinnert zich AltaVista nog, of Lycos, of Northern Lights? Dat waren zoekmachines in het pre-Google tijdperk. Daarmee kon je zogenaamd dingen opzoeken op het internet, maar ze werkten voor geen meter. Het algoritme dat je een lijst links gaf als je bijvoorbeeld iets wilde weten over kattenvoeding, was zo makkelijk voor de gek te houden, dat allerlei porno- en goksites in de bovenste pagina met links opdoken, en een vloed aan andere links die ook niets met kattenvoeding te maken hadden.

Concurrenten weggevaagd

Toen Larry Page en Sergey Brin hun PageRank-algoritme bedachten en daarmee de zoekmachine Google maakten, werden deze concurrenten weggevaagd. Je hoefde maar één keer te ervaren hoeveel beter Google was, en je probeerde nooit meer wat anders. Zoekmachines die nu nog de concurrentie met Google aangaan, zoals Bing van Microsoft, zijn in wezen allemaal klonen van Google.

Lüke van den Wittenboer geeft in haar profielwerkstuk Zoekmachines. De evolutie en de techniek een helder overzicht van hoe deze vroege zoekmachines werkten. In wezen faalden ze omdat ze het internet beschouwden als een boek, met websites als losse pagina’s. Van dat boek maakten ze een index op basis van trefwoorden. In het begin, toen het internet nog nieuw was en maar een paar miljoen websites telde, werkte dat nog wel enigszins. Maar als je op een zoekterm (trefwoord) als ‘kat’ vijfduizend treffers krijgt, welke moet je dan bovenaan zetten?

Woorddichtheid

In arren moede kozen deze zoekmachines dan de website waar de zoekterm het vaakst voorkwam. Dat is echt de kat op het spek binden, aldus Wittenboer: “Door bijvoorbeeld honderden keren het woord ‘kat’ in witte letters op een witte achtergrond op je site te zetten, kon je gemakkelijk de woorddichtheid op jouw pagina verhogen, zodat je op een relatief simpele manier een hogere positie in de zoekresultaten bemachtigde.”

De uitbaters van de zoekmachines maakten deze chaos nog erger door posities op hun ranglijsten te verkopen aan de hoogst biedende. Van den Wittenboer: “Aan het eind van de jaren negentig was de zoekende internetter eigenlijk weer terug bij af: als zoeker naar bepaalde informatie wist je dat er een enorme hoeveelheid relevante informatie binnen handbereik lag, maar je had geen idee hoe je deze te bereiken.”

Van den Wittenboers mini-internetje van elf webpagina’s.

Lüke van Wittenboer

De grote omslag kwam dan ook precies op tijd: “Terwijl de doorsnee internetgebruiker liep te vloeken op de zoekmachines, was de student Larry Page op zoek naar een interessant onderwerp voor zijn masterscriptie.” Dit scriptieonderwerp werd ‘de structuur van het wereldwijde web’, en wat het opleverde was: Google, de eerste zoekmachine die het internet niet beschouwt als een boek, maar als een graaf, een wiskundig netwerk van knopen (websites) met verbindingen (hyperlinks) er tussen. Het fameuze PageRank-algoritme rangschikt alle websites (het hele doorzoekbare internet) eerst op basis van de hyperlinks tussen die websites, en selecteert daarna pas op de ingevoerde zoektermen.

Hetzelfde mini-internetje, maar nu is het PageRank-algoritme toegepast. De grootte van de cirkel geeft de rang van de webpagina aan.

Lüke van Wittenboer

Linkstructuur

Het Pagerank algoritme hanteert twee criteria voor hoe belangrijk een webpagina is. Eerst kijkt het naar het aantal webpagina’s dat naar deze pagina linkt, en het maakt een link belangrijker, naarmate deze komt van een belangrijker webpagina. Het gebruik van de linkstructuur om relevante zoekresultaten te verkrijgen, werd pas praktisch mogelijk doordat computers veel sneller geworden waren, en geheugen veel goedkoper. Immers, om het hele internet te ranken, moet je berekeningen uitvoeren op een wiskundig object dat miljarden webpagina’s en nog veel meer links daartussen cijfermatig weergeeft (dat wil zeggen, rekenen aan een matrix met miljarden getallen).

Terecht wijst Van den Wittenboer er daarom op, dat de geniale ingevingen van enkelingen niet het hele verhaal vormen. De fundamentele ideeën bestonden al langer, maar het wachten was op de hardware en infrastructuur die het mogelijk maakten om er ook echt mee aan de slag te gaan.

Lüke van den Wittenboer schrijft over nu vergeten zoekmachines als Lycos en AltaVista: “Aan het eind van de jaren negentig was de zoekende internetter eigenlijk weer terug bij af: als zoeker naar bepaalde informatie wist je dat er een enorme hoeveelheid relevante informatie binnen handbereik lag, maar je had geen idee hoe je deze kon bemachtigen.”

KNAW

Inmiddels heeft ook Google zich steeds verder uitgeleverd aan de commercie. Vroeger stonden websites die betaalden voor vermelding in een aparte kolom rechts, nu staan ze gewoon in de lijst, zij het met een klein icoontje [adv] erbij. Google verzamelt ongevraagd enorme hoeveelheden informatie over alle gebruikers, en past die toe om zo specifiek mogelijk adverteerders te werven.

Non-profit zoekmachine

Van den Wittenboer: “Je kunt stellen dat de gebruiker het meest gebaat, is bij een zoekmachine die wordt beheerd door een non-profitorganisatie die de rechten en de privacy van de gebruiker respecteert. Een zoekmachine is misschien wel té belangrijk om beheerd te worden door een commerciële partij. Het is vreemd dat we iets belangrijks als het verzamelen en presenteren van ‘alle kennis van de wereld’ uit handen geven aan bedrijven met winstoogmerk. De vraag is echter, of de gebruiker ook bereid is om voor een dergelijke dienst te betalen, in bijvoorbeeld de vorm van belasting (als het een overheidsdienst zou zijn) of contributie of abonnement.”

De 6 VWO-scholiere bouwde ook zelf prototypes van drie zoekmachines, die een mini-internetje van elf webpagina’s doorzochten. De eerste twee vertegenwoordigen de vroege zoekmachines, terwijl de derde een simpele versie is van Google (zij het dat ze voor het PageRank-algoritme een bestaand stuk open source code gebruikte). Vooraf wist ze nog niet zo goed welke vervolgstudie ze wilde gaan doen, omdat ze niet wist of ze programmeren wel leuk vond. Maar het beviel zo goed, dat ze heeft besloten om komend jaar kunstmatige intelligentie te gaan studeren aan de Rijksuniversiteit Groningen.

De KNAW Onderwijsprijs bekroont jaarlijk het profielwerkstuk van twaalf scholieren, drie in elk van de vier profielen. Lüke van den Wittenboer won de tweede prijs in het profiel Natuur & Techniek voor haar onderzoek naar de geschiedenis en werking van zoekmachines op internet.

ReactiesReageer