Misschien heb je een grote harde schijf van tien gigabyte. Als je daarnaast zet hoeveel gigabyte via het internet wordt aangeboden, is dat dan duizend keer zoveel? Vast nog veel meer. We vinden het maar heel gewoontjes dat we via een zoekmachine snel in deze enorme brei aan internetpagina’s kunnen zoeken naar de pagina van onze gading. Met een paar listig gekozen zoektermen kom je een heel eind. Toch is dat zoeken, in honderden miljoenen internetpagina’s, een hele prestatie.
Een zoekmachine is zelf een supersnelle computer met een enorme opslagcapaciteit. Zo’n machine bestaat uit twee onderdelen: het ene verzorgt de beantwoording van de zoekvragen die de surfer stelt, het andere deel struint het web af op zoek naar pagina’s om te indexeren. Dat tweede onderdeel noemt men ook wel de zoekrobot. Veel zoekmachines hebben een mogelijkheid om je website aan te melden. De zoekmachine weet dan van het bestaan van je website, maar nog niet waar de pagina over gaat. Dat is een lastig probleem, dat de robot moet oplossen om de website zinnig te kunnen indexeren. Dat indexeren is in wezen niet anders dan een lange lijst maken van websites met een omschrijving waar ze over gaan. Dat kan grofweg op twee manieren: de zoekrobot kan zelf de pagina lezen en proberen te achterhalen waar het over gaat, maar je kunt hem ook helpen door op de pagina expliciet, via trefwoorden, aan te geven waarover je het hebt.
Als voorbeeld van indexeren bekijken we de hoofdpagina van Natuur & Techniek. Het webadres is www.natutech.nl. Als de pagina is verschenen in onze browser (Internet Explorer, Netscape of Opera), vragen we de broncode op. We klikken op ‘View | Page Source’ of ‘Beeld | Bron’ om het html, de taal waarin webpagina’s zijn geschreven, op het scherm te krijgen. Daarin zien we een tag (zeg maar: een commando) met trefwoorden (keywords): wetenschap, natuurwetenschap, technologie, archeologie, enzovoorts. Hiermee vertelt de eigenaar van de pagina direct tegen de zoekmachine waar het op die pagina over gaat.
Als de zoekmachine de website van Natuur & Techniek heeft gezien, slaat hij de trefwoorden op en gebruikt die om zoekvragen te beantwoorden. Zo bewaren zoekmachines informatie van enorm veel webpagina’s. Hoe meer ze bewaren, hoe beter de zoekmachine. Als iemand zoekt op het woord ‘techniek’, dan weet de zoekmachine dat de pagina van Natuur & Techniek de moeite waard is. Maar stel nu dat iemand vraagt om ‘chemie’ en ‘economie’, wat dan?
Vraag en aanbod
Vraag en antwoord. Een zoekmachine bestaat uit twee gedeelten. Een zoekrobot (boven) zoekt continu het internet af en vergelijkt trefwoorden van internetpagina’s met zijn eigen trefwoordenlijst. Met een vector bestaande uit nullen en enen onthoudt de zoekrobot welke trefwoorden op de site van toepassing zijn. Na een zoekvraag van een surfer (onder) maakt de zoekmachine eenzelfde soort vector. Een vergelijking tussen beide vectoren geeft aan hoe goed vraag en antwoord op elkaar aansluiten.
En mijn pagina’s?
Nu rijst de vraag hoe je het beste je eigen pagina’s bekend kunt maken bij een zoekmachine. In elk geval moet je goede trefwoorden opnemen en je pagina aanmelden. Zorg bovendien dat je pagina een goede omschrijving heeft via de volgende meta-tag:
meta description=“beschrijving van je pagina”
Tot slot is het mogelijk de zoekrobot instructies te geven. Het volgende commando geeft de robot de instructie de pagina te indexeren en alle links in de pagina te volgen:
meta name=“ROBOTS” content=“INDEX, FOLLOW”
Natuurlijk verander je je pagina wel eens. Het is dan handig wanneer de zoekrobot zo af en toe terugkomt om de pagina opnieuw te bekijken. Die instructie geef je zo:
meta name=“REVISIT-AFTER” content=“1 MONTH”
Na één maand zal de zoekrobot terugkomen, op een moment dat het hem schikt.