Naar de content

Werken aan het webarchief

Nederlandse internetcultuur bewaard voor later

Stilleven van een stapel documenten op een bureau met een laptop ervoor.
Stilleven van een stapel documenten op een bureau met een laptop ervoor.
Freepik

Veel mensen denken dat alles voor altijd op internet blijft staan. Dat is echter niet het geval. Daarom archiveert de KB nationale bibliotheek het Nederlandse internet.

Pal naast het centraal station in Den Haag zit de KB nationale bibliotheek. Het grote gebouw, bekleed met witte aluminium platen, doet wat futuristisch en gesloten aan. Hier heerst stilte en concentratie, straalt het gebouw uit. Binnen liggen 121 kilometer aan boeken, kranten en tijdschriften en 2 petabyte (2 miljoen gigabyte) aan digitale stukken opgeslagen die in of over Nederland zijn geschreven.

De KB nationale bibliotheek in Den Haag, bekleed met witte aluminium platen, doet wat futuristisch en gesloten aan.

Het gebouw van de KB nationale bibliotheek in Den Haag.

Krijn Soeteman

De oudste objecten stammen uit de middeleeuwen. Veel van die oude spullen zijn inmiddels gedigitaliseerd en zo voor buitenstaanders toegankelijk via de site van de KB of via Delpher, een website met allemaal gedigitaliseerde boeken, tijdschriften en kranten tot 1995. "Met Delpher – ook ideaal om je eigen naam of die van je oma eens op te zoeken – loopt Nederland voorop als het gaat om het beschikbaar maken van niet-digitale archieven in digitale vorm", zegt Sophie Ham, conservator digitale collecties van de KB. Met het goed archiveren van ons digitaal erfgoed op internet is dat helaas niet het geval. 

Beschikbaar

Ham leidt ons door de bibliotheek, langs boekenkasten vol boeken en hoekjes waar je kunt zitten om te lezen of te studeren. We lopen naar een lokaal dat wordt omgetoverd tot het KB_Datalab. Vanaf 15 februari moet het functioneel zijn. Op deze plek kunnen onderzoekers binnenkort aan de slag met de digitale collecties van de KB en kunnen ze grootschalig dataonderzoek uitvoeren. 

Een vrouw hangt het logo van het KB-Datalab in lichtgevende neonletters aan de muur.

Installatie van het KB_Datalab-logo in het nieuwe lab van de KB.

Krijn Soeteman

"Onze gehele webcollectie is voor iedereen beschikbaar in de leeszaal van de KB, maar biedt beperkte zoekmogelijkheden. In het KB_Datalab zijn webcollecties straks ook full text doorzoekbaar", vertelt Ham. "Vanuit rechten- en privacyoogpunt is het vaak praktischer om archieven van de buitenwereld af te schermen." Met andere woorden: je kunt niet van buiten het netwerk van de KB bij de archieven.

Slechts een fractie

Sinds 2007 archiveert de KB het Nederlandse internet. Inmiddels worden in het webarchief zo'n 23.500 sites bijgehouden. In tegenstelling tot archiefwebsites, zoals archive.org, archiveert de KB websites die van 'cultuurhistorisch belang zijn voor Nederland' en niet lukraak alles wat los en vast zit. Ook slaat de KB websites zo integraal mogelijk op, zodat alle onderdelen van een site meegenomen worden voor zover dat technisch mogelijk is. Als voorbeeld geeft Ham ns.nl: je kunt geen snapshot maken van de reisplanner, maar wel van de rest van de site.

Een deel van onze cultuur gaat verloren als we het web niet archiveren

Het liefst zou de KB een keer per jaar een zogeheten crawl van alle Nederlandse websites willen doen, zodat voor latere generaties zichtbaar is hoe het Nederlandse internet er op een bepaald moment uitzag. Dat omvat dan alle .nl-sites, maar ook alle Nederlandstalige pagina's eindigend op .com, .org, enzovoort. Maar dit mag helaas niet wegens wet- en regelgeving, vertelt Ham. Hierdoor zijn de 23.500 websites die de KB archiveert, slechts een fractie van alle geregistreerde .nl-domeinnamen, op dit moment ruim 6,5 miljoen. De wet stelt dat de KB aan elke site toestemming moet vragen om deze te mogen toevoegen aan het archief.

Automatisch opslaan

Een webcrawler is een automatische manier van informatie van internet doorbladeren en opslaan. Zo kun je bijvoorbeeld een bot een opdracht geven om alle eerste pagina's van alle domeinen eindigend op .nl op te slaan.

AI-gegenereerde content

Een paar landen om ons heen, Engeland, Duitsland en Denemarken, maken wel elk jaar een snapshot van alle websites binnen hun landendomein. Er is gelukkig een lichtpuntje met betrekking tot de nationale domeincrawl: oktober 2023 is een motie aangenomen om in kaart te brengen wat de wettelijke obstakels zijn om zo'n jaarlijkse snapshot van het .nl-domein mogelijk te maken.

"Zo'n jaarlijkse snapshot zorgt er ook voor dat je niet hoeft te bepalen of iets wel of niet belangrijk genoeg is om op te slaan, net zoals ons boekendepot ernaar streeft om álle boeken binnen te krijgen die elk jaar in Nederland uitgegeven worden, zonder dat iemand vraagt of het wel of niet belangrijk is het boek te bewaren. Dat is goed, je weet immers niet wat later belangrijk is."

En er is nog een reden dat Ham graag een domeincrawl wil. Heel spoedig zullen namelijk heel veel sites door AI geschreven zijn. Daarom moeten we zo snel mogelijk een crawl van het Nederlandstalige internet maken, zodat we kunnen zien hoe die ontwikkeling zich voortzet. "Nu valt het nog mee met de AI-gegenereerde content, maar dat zal niet lang meer duren."

Het oude NEMO Kennislink is bewaard

NEMO Kennislink is helemaal vernieuwd in januari 2024. Vlak voordat de oude site offline zou gaan, is deze nog één keer helemaal gearchiveerd door de KB. Normaal zou NEMO Kennislink een keer per jaar gearchiveerd zijn in de normale crawl, maar in dit geval had hoofdredacteur Robert Visscher de KB van tevoren ingelicht over de verhuizing naar de nieuwe site. Daarom is de oude site nog één keer helemaal gearchiveerd vlak voor de overgang.

Vlak voor de nieuwe site van NEMO Kennislink begin dit jaar live ging, heeft de KB de oude site nog één keer helemaal gearchiveerd.

Peter R. de Vries

Ham licht toe hoe ze nu beslissen welke sites ze archiveren. "We kiezen nu websites waarvan je ziet dat er veel naar wordt gelinkt, sites die dreigen te verdwijnen of sites die in het verlengde liggen van onze fysieke verzameling, zoals literatuur, geschiedenis, maatschappij, etc., en die selecteren we handmatig. Daarnaast hebben we ook speciale collecties, zoals lhbtqi+-erfgoed, de XS4ALL-homepages en Caribisch Nederland. Daarnaast archiveren we ook maatschappijkritische sites rond onderwerpen als het klimaat of corona."

Naast de speciale collecties archiveert de KB ook sites rond bepaalde gebeurtenissen, zoals nu de oorlog in Oekraïne. De website van Peter R. de Vries illustreert dat sites vaak en snel veranderen: al binnen negen dagen na zijn overlijden was zijn homepage vervangen door een obituarium. Eens per jaar een snapshot maken is dus misschien niet genoeg, zeker als je je bedenkt dat de gemiddelde webpagina al na drie maanden verandert of offline is.

Ham verzucht dat ze constant dingen tegenkomt die altijd weer interessanter blijken dan je van tevoren had kunnen bedenken. "Er bestaan heel veel community's rond allerlei niches in Nederland, zoals rond breipatronen. Dat blijkt een heel veel grotere niche dan je zou denken en zoiets past dan weer binnen een cultuur waarbij mensen meer bezig willen zijn met handwerken en ambachten. Zoiets wil je eigenlijk ook aanpakken."

Digitale ruïne

De KB archiveert sinds 2007 websites en dit betekent dat al heel veel sites van daarvoor verdwenen waren, ook heel belangrijke, zoals De Digitale Stad (dds.nl). Het is dan zoeken naar plekken waar misschien nog wat is overgebleven. Ook zijn sommige bronnen alleen maar digitaal beschikbaar zonder papieren uitgave, zoals De Correspondent, Follow the Money, Tweakers, GeenStijl en ook NEMO Kennislink. Ham voegt daar nog aan toe dat een groot deel van het leven van Nederlanders zich al decennialang online afspeelt en dat een deel van onze cultuur verloren gaat als we dat niet archiveren.

Het DDS-project gaat Ham echt aan het hart. "Afgelopen jaar kregen we de bronbestanden van De Digitale Stad van de versie uit 1996. Dat is niet zomaar een 'digitale ruïne' van een website, maar een gevarieerde collectie van analoge en digitale artefacten die samen het verhaal vertellen van wat ooit een virtuele 'stad' was met 'huizen', eigenlijk homepages van particulieren, en andere, op dat moment zeer innovatieve ideeën. Dit vormde het fundament van een hechte online gemeenschap, met chatmogelijkheden, elektronische post en 'pleinen' waar mensen elkaar virtueel konden ontmoeten – het was social media avant la lettre. Hiermee gaan we dit jaar aan de slag als webarcheologisch project."

Schermafbeelding van het bedieningspaneel van De Digitale Stad (DDS).

Screenshot van het bedieningspaneel van De Digitale Stad (DDS).

DDS via CC BY-NC-SA

Als laatste voorbeeld geeft Ham het archiveren van de Nederlandstalige Wikipedia, dat volgens haar een 'prachtig beeld' geeft van wat mensen in Nederland op een bepaald moment belangrijk vinden en willen weten. "Voor taalkundigen een geweldige bron."

Technische uitdagingen

Bij het maken van een webarchief spelen veel technische uitdagingen. Vroeger werd bijvoorbeeld veel Flash gebruikt om animaties of spelletjes te maken, een formaat dat niet meer wordt ondersteund. Tegenwoordig zijn websites vaak dynamisch, waardoor niet iedereen hetzelfde voorgeschoteld krijgt. Dit maakt het lastig om de juiste content mee te krijgen.

Voor niet-dynamische websites is een internationale standaard voor het opslaan van de sites. Dit gebeurt in een zogenoemd containerformaat WARC. In een WARC-file zit dan alle informatie op de juiste manier opgeslagen, zodat een website ook nog functioneert. Ham vergelijkt het met het 'afspelen' van een website.

De webcrawler van de KB is volgens Sophie vooral goed in het archiveren van het web zoals dat er rond 2010 uitzag. Het huidig internet is veel dynamischer en bevat bijvoorbeeld veel meer video. In het meenemen van dat soort embedded content is de KB niet heel goed. Het Instituut voor Beeld en Geluid in Hilversum is daarin gespecialiseerd en slaat audio en video op.

Een andere technische uitdaging is dat oude websites ooit gebouwd werden voor monitoren met resoluties die nu postzegelformaat lijken. Ook kunnen moderne browsers oude websites vaak niet goed weergeven. Om dat te doen heb je een manier nodig om een oud computersysteem na te bootsen, ook wel een emulator genaamd. Of bijvoorbeeld het Home Computer Museum in Helmond kan dan helpen.

Social media

En er blijft voldoende te doen in de toekomst. Ham hoopt dat ze beter worden in het archiveren van sociale media. Denk maar aan de grote groep mensen die helemaal geen eigen site meer heeft, maar wel belangwekkende dingen binnen het Nederlandse taalgebied zeggen. "Theo van Gogh had nu waarschijnlijk alleen maar op Twitter gezeten", denkt Ham. Ook maken jongeren praktisch geen websites meer aan.

De medewerkers van de KB werken wat dat betreft voor de toekomst van het verleden. Het vroege internet voelt nu pas als vroeger en dat is ook niet zo gek. Uit onderzoek blijkt dat iets pas na een jaartje of dertig als geschiedenis voelt, zegt Ham. "Het zou voor ons een wereld van verschil maken als dat wettelijke kader voor webharvesting er echt komt. Dan kunnen we écht een substantieel deel van de internetcultuur veiligstellen."