Je leest:

Digitale bibliotheek zoekt duurzame archivering

Digitale bibliotheek zoekt duurzame archivering

Auteur: | 14 oktober 2003

Steeds meer informatie wordt alleen nog maar digitaal gemaakt en bewaard. Hardware en software veranderen echter snel: vijftien jaar oude floppies worden niet meer gebruikt. Het resultaat is dat een deel van de oude informatie inmiddels ontoegankelijk is. Met het project e-Archive werkt de Delftse universiteitsbibliotheek mee aan een duurzaam elektronisch archief.

Steeds meer informatie wordt alleen nog maar digitaal gemaakt en bewaard. Hardware en software veranderen echter snel: vijftien jaar oude floppies worden niet meer gebruikt, vele programma’s van vijftien jaar geleden zijn ter ziele gegaan, om nog maar te zwijgen van vergeelde ponskaarten en ponsbanden. Het resultaat is dat een deel van de oude informatie inmiddels ontoegankelijk is. Dat levert problemen op voor bibliotheken, die toch als primaire taak hebben informatie te bewaren en beschikbaar te stellen aan klanten. Maar ook de wetenschap lijdt onder de snelle digitale verjaring.

Reproduceerbaarheid van oude gegevens en essentiële meerjarenstudies zoals in de geneeskunde, de geologie en de klimatologie raken in de knel. De vluchtigheid van elektronische archivering noopt tot een gestandaardiseerde internationale aanpak. Met het project e-Archive werkt de Delftse universiteitsbibliotheek mee aan een duurzaam elektronisch archief. Als eerste presenteren de e-Archive-informatici een demonstratiemodel.

De Schijf van Phaistos die in 1908 op Kreta bij het gelijknamige stadje werd gevonden, dateert vermoedelijk uit zo’n 1700 v.Chr. De betekenis van de schijf was een mysterie waarop vele linguïsten hun hersenen hebben gepijnigd. Onlangs echter, claimde de Amerikaanse tweeling Keith en Kevin Massey het schrift te hebben ontcijferd. De schijf van Phaistos was hèt voorbeeld van een taal waarvan betekenis verloren is gegaan. Een zelfde lot wacht misschien de miljarden digitale objecten die in de afgelopen dertig jaar zijn geproduceert, zoals tekst, beeld, programmatuur als geluid.

Al eeuwenlang bewaren en beheren bibliotheken boeken die ze beschikbaar stellen aan geïnteresseerden. De sterk toegenomen digitalisering van informatie stelt bibliotheken echter voor een drietal geheel nieuwe problemen. Allereerst vertonen elektronische media als bijvoorbeeld floppy disks, cd-rom’s en magnetische schijven fysiek verval. Op geen enkel opslagmedium blijven bits en bytes voor eeuwig bewaard. Na tien of vijftien jaar moet de informatie in het algemeen opnieuw worden opgeslagen. Extra complicatie is dat niemand weet wat het opslagmedium in de toekomst zal zijn. Toch moeten de bits en bytes op een of andere manier worden bewaard voor de toekomst.

Twee formaten floppy disks: het oude model van 5 1/4 inch en de modernere van 3 1/2 inch.

Een tweede probleem vormen de formaten van de opgeslagen informatie, bijvoorbeeld MS-Word, LaTeX of pdf. Zo is menig tekstverwerker van ruim tien jaar geleden inmiddels niet meer verkrijgbaar. De taak van de archivering is nu om ervoor te zorgen dat formaten van nu ook in de toekomst nog leesbaar zijn. Een derde probleem is de toegankelijkheid van digitale informatie. Stel dat de basisinformatie en de basisprogrammatuur beschikbaar zijn, dan is de volgende stap dat potentiële klanten die informatie ook moeten kunnen vinden.

Wetenschappelijk gezien zijn er twee belangrijke redenen voor duurzame toegankelijkheid van informatie. Wetenschappelijke reproduceerbaarheid vereist dat gegevens toegankelijk blijven. Zelfs tientallen jaren later moet een wetenschapper oude gegevens nog kunnen controleren en vergelijken met nieuwe informatie. Bovendien vereisen bijvoorbeeld geneeskundige, klimatologische en geologische onderzoeken vaak gegevensreeksen over lange perioden. Dit zijn de zogeheten longitudinale studies.

In de geologie is onderzoeksmateriaal van vroegere expedities vaak vastgelegd op beeldplaten die heden ten dage nauwelijks meer toegankelijk zijn. Hierin kunnen echter klimaatgegevens liggen opgesloten, die huidige klimatologen belangrijke extra informatie kunnen opleveren. Door verschillen in media en methodieken is een uitwisseling of combinatie van meteorologische en geologische gegevens nu nog onmogelijk.

Conversie of emulatie

De TU Delft heeft samen met de universiteiten in Utrecht en Maastricht het project e-Archive opgezet. Eerste doel was om zicht te krijgen op de problematiek van digitale duurzaamheid en om vervolgens oplossingen voor een elektronisch archief te ontwerpen en te implementeren. Projectleider van e-Archive is Ronald Dekker, hoofd Ontwikkeling en Innovatie (O&I) van de Delftse universiteitsbibliotheek. “Natuurlijk treffen deze duurzaamheidsproblemen niet alleen bibliotheken”, zegt hij. “Ook bijvoorbeeld banken, verzekeringsbedrijven, arbeidsbureaus, onderzoeksinstituten als het deeltjesversnellerinstituut CERN en ruimtevaartorganisatie NASA staan voor dezelfde problemen. Al enige tijd werken zij aan oplossingen voor het fysieke verval van digitaal opgeslagen informatie. Ons project kijkt niet naar dit probleem, maar naar de fundamentele informaticaproblemen met de formaten en de toegankelijkheid in de toekomst.”

Grofweg bestaan er twee manieren van aanpak, legt Dekker uit. De ene manier heet conversie, de andere emulatie. Bij conversie worden digitale bestanden periodiek herschreven (geconverteerd) naar een op dat moment gangbaar formaat. Alles wat bijvoorbeeld ooit in Word Perfect was geschreven, wordt dan omgeschreven naar Word. Emulatie gaat niet uit van het telkens converteren van bestanden, maar van programmatuur die de functionaliteit van de oorspronkelijke programma’s nabootst. Het oorspronkelijke bestand blijft onaangeroerd, er wordt alleen een nieuw programma geschreven dat het oude programma simuleert. Zo staan op internet tegenwoordig emulatoren voor computerspelletjes die vroeger op eerste generatie pc’s als de Commodore-64 of de ZX-Spectrum draaiden, inclusief een simulatie van de hardware en het besturingssysteem. Dekker en zijn medeonderzoekers werken onder andere internationaal samen met IBM. Uit IBM-tests met diverse emulatiestrategieën is inmiddels gebleken dat het lastig is om emulatie geheel zonder verliezen te krijgen. Er gaat meestal wel enige informatie verloren.

Ponskaartmachine uit 1935. Dergelijke apparaten werden tot het begin van de jaren tachtig gebruikt om informatie op kaarten te zetten die vervolgens in een computer kon worden verwerkt. Ook de overschrijvingskaarten van de giro werkten volgens deze methode. Het medium van dit systeem is, anders dan magnetische dragers, beduidend minder vergankelijk, maar toch zal het een karwei zijn om de informatie vandaag de dag nog toegankelijk te maken.

“Bij het begin van ons project bestond er bijna een stammenstrijd tussen deze twee aanpakken”, zegt Dekker. “Informatici dachten toen dat ze vooraf al een keuze voor een van beide moesten maken. Dat is lastig omdat ze niet weten of het altijd mogelijk is een emulator te bouwen. Als ze ook de oorspronkelijke hardware opnieuw moeten bouwen, kan emulatie wel eens een heel dure oplossing worden.” De kosten vormen dus een wezenlijk aspect van de keuze voor conversie of emulatie. Op dit moment zijn die kosten, en ook wie dat straks moet betalen, moeilijk in te schatten. Vooralsnog houden informatici dan ook meerdere onderzoekspaden open. “Er is geen no-penalty-oplossing”, zegt Dekker. “Het kost altijd werk, tijd en geld.”

Basismodel van de NASA

“Ruimtevaartorganisatie NASA realiseerde zich als een van de eerste dat het problemen had met het beheren en beheersbaar houden van de meetgegevens van eigen satellieten”, vertelt het hoofd O&I van de Delftse universiteitsbibliotheek. NASA ontwikkelde daarom een soort universeel conceptueel basismodel: Open Archives Information System (OAIS). Dit model staat aan de wieg van alle huidige modellen van duurzame elektronische archivering. Het maakt hierbij niet uit of het gaat om het archiveren van meetdata, afbeeldingen of complexe documenten.

Om het beheer van dergelijke grote hoeveelheden data mogelijk te maken, ontwikkelde de NASA een referentiemodel, genaamd oais (Open Archival Information System). Het laat zich als volgt beschrijven: een producent levert data (bijv. meetgegevens of documenten) aan bij het archief. Op dat moment wordt er beschrijvende metadata (titel, auteur, jaartal, organisatie etc.) en duurzaamheidsmetadata (eigendomsgegevens, check-sums, kwaliteit van het origineel, selectiecriterium, grootte van het document etc.) aan toegevoegd. Dit wordt een submission-information-package genoemd (sip). De beheerder van het archief vormt de opgenomen data om in een zogenoemd archival-information-package (aip), dat kan worden gezien als een soort file die alle data bevat. De vraag van een klant kan vervolgens leiden tot het lokaliseren van zo’n aip-container waarin zich de gewenste informatie bevindt, die vervolgens aan de klant beschikbaar wordt gesteld in de vorm van een dip (=dissimination information package genoemd).

Het model heeft een invoer-uitvoer-karakter: aan de ene kant van het model is er een producent van informatie, en aan de andere kant een consument van informatie. Daartussenin zit een blok informatica dat het beheren van grote hoeveelheden data beheersbaar maakt. Dekker: “Toen NASA dit basismodel ontwierp, hadden ze alleen oog voor de beheersbaarheid, het kunnen terugvinden van gegevens. Ze keken nog niet naar de digitale duurzaamheid. Wij doen dat wel, en inmiddels heeft ‘preservation planning’ ook een plaats gekregen in het OAIS-model.”

De producent van informatie biedt een informatiepakket aan het archief aan: een Submission Information Package (SIP). De volgende stap is een innameprocedure (Ingest). Hier wordt er beschrijvende informatie over bijvoorbeeld auteur en titel aan toegevoegd, ofwel het klassieke cataloguskaartje. Daarnaast worden ook metagegevens die specifiek zijn voor de duurzaamheid meegeleverd. Het nieuwe resultaat is een Archival Information Package (AIP). De innameprocedure kan bijvoorbeeld met een webformulier voor de metagegevens gebeuren. Een containerassembler voegt die informatie samen in een nieuwe container, de documentcontainer, die wordt opgeslagen in het archief. Een administratieblok houdt zich binnen het grote informaticablok van het model bezig met beheersprocedures van het archief, bijvoorbeeld back-up en recovery. Dekker: “We verwachten dat we in de toekomst met bulkinnamen werken, waarbij vele documenten in een keer, als een collectie, worden ingenomen.”

De klant kan een vraag stellen aan het systeem: ‘ik wil graag dit artikel of dat proefschrift bekijken.’ In het OAIS-model zit het zoekmechanisme in het archief. “In ons model hebben we dat zoekmechanisme buiten het systeem geplaatst”, zegt Dekker. “Dat zijn bestaande systemen die kennis hebben van wat er in het archief zit. Voor de klant maakt dat niet uit. Als de gevraagde informatie beschikbaar is, wordt het AIP opgehaald en vervolgens aan de klant aangeboden in de vorm van een DIP (Dissimation Information Package). Dit model vormt de basis van ons e-Archive-ontwerp.”

Zichzelf beschrijvende taal

Het eerste uitgangspunt van e-Archive is dat gegevens en metagegevens (bijschrijvingen van de primaire gegevens) onlosmakelijk met elkaar blijven verbonden. De gebruikte archiveringstaal heet XML: eXtensible Mark-up Language. Deze kenmerkt zich door een handige manier om een willekeurig document gestructureerd te beschrijven. XML is een zichzelf beschrijvende taal. Wie een XML-document vindt, kan het begrijpen omdat het met XML is gemaakt. XML is een pragmatische middenweg tussen SGML (Structured Generalised Markup Language, een taal die voor veel toepassingen te complex bleek) en het veel eenvoudigere HTML, dat gebruikt wordt bij webpagina’s. In een XML-document kunnen weer nieuwe documenten worden gestopt.

In het e-Archive-project wordt de aip weergegeven in de XML-taal, het volwassen broertje van het overbekende HTML, waarmee een groot deel van de websites is gemaakt. Het voordeel van XML is dat het een zelfbeschrijvende taal is. Het aip, nu in de vorm van een XML-container, naast de metadata over de duurzaamheid bevat de beschrijvende metadata altijd de originele bitstream van het te bewaren data-object wordt opgeslagen. Daarnaast is het mogelijk om een of meer representaties van het informatie-object in de container op te slaan.

“XML-taal lijkt een beetje op de plaquettes met afbeeldingen die de ruimte zijn ingestuurd”, illustreert Dekker. "De tekeningen beschrijven zich min of meer zelf. Men gaat er van uit dat eventuele buitenaardse wezens dit in ieder geval begrijpen. " Het World Wide Web Consortium beheert de XML-standaard. Als er nieuwe versies komen, geeft het consortium de garantie dat oudere versie bruikbaar blijven. Bovendien bewaakt het de ontwikkelingen goed.

Een zogeheten XML-container bevat het document, de beschrijvende metagegevens en de ‘preservation-metagegevens’. ‘Preservation-metagegevens’ zijn metagegevens specifiek gericht op het verduurzamen, bijvoorbeeld gegevens over versies van gebruikte software, eigenaren, de rechten van het document, copyrightzaken, kwaliteit van het originele document en selectiecriteria.

Een tweede uitgangspunt van e-Archive is dat altijd het originele document wordt bewaard. Ten derde wordt ook het programma dat betekenis geeft aan de gegevens, een viewer genoemd, opgeslagen in eenzelfde XML-document. Bij voorkeur is het een zo flexibel mogelijke viewer, die lang meegaat. Een viewercontainer bevat de broncode van het programma, een beschrijving, eventuele gebruiksaanwijzing over hoe te compileren.

Daarnaast is het mogelijk meerdere voorstellingen van een document op te slaan, bijvoorbeeld naast een Word-versie ook nog een pdf- en een HTML-versie. Dat biedt flexibiliteit in de manier waarop de klant uiteindelijk het document krijgt aangeboden, bijvoorbeeld voor gebruikers die geen Word maar wel HTML-versies kunnen lezen. Op basis van deze drie uitgangspunten ontwierpen de informatici e-Archive.

Toen stonden ze ook voor de keuze tussen conversiestrategie of emulatiestrategie, tenminste, zo leek het. Dekker heeft inmiddels een andere mening: “Onze theorie is dat er feitelijk geen verschil is tussen emulatie en conversie. Als we een bitstream van de opslagschijf halen, dan wordt die geïnterpreteerd met programmatuur. Het programma doet niets anders dan de bitstream converteren naar een leesbaar formaat. Als we er zo naar kijken, is het ophalen van de bitstream uit het archief en het erbij halen van de viewer een vorm van conversie-op-verzoek, een emulatie eigenlijk. Het resultaat van die viewer kunnen we opslaan in de container, waardoor we eigenlijk een geconverteerde versie in de container opslaan. Stel dat we die viewer niet meer kunnen onderhouden, dan kunnen we er voor kiezen het formaat dat we op dat moment kunnen converteren opslaan als een nieuw origineel in die container.”

Op een geschikt moment kunnen de informatici kiezen of ze een reeks van viewers gebruiken, wat veel rekenkracht vergt, of dat ze het opslaan, waarvoor ze meer schijfruimte nodig hebben. Het grote voordeel is dat ze op het moment van opslaan niet hoeven na te denken over conversie of emulatie.

Dekker: “Onze implementatie van een AIP, zoals het in het basismodel voorkomt, gaat dus in de vorm van een XML-container. Het basismodel zegt namelijk niets over de keuze van de implementatie. Wij slaan een origineel in binaire vorm op. Omdat XML ASCII gebruikt, coderen we het binaire object in ASCII. We gaan er daarbij vanuit dat we ASCII altijd kunnen interpreteren. Om zeker te zijn dat het kan, zit ook de definitie van ASCII ook in het archief. Ten tweede zorgen we ervoor dat de metadata onlosmakelijk zijn verbonden met het document. Ten derde slaan we het origineel op in een of meer representaties. Ook de viewers zijn opgeslagen in de container. In de definitie van de container staat beschreven hoe hij eruit ziet, vandaar dat hij zelfbeschrijvend is.”

De globale structuur van e-Archive ziet er dan als volgt uit. Het digitale archief bevat alle containers. Via een catalogus is het archiefsysteem geïndexeerd. Klanten zoeken in de index naar een document, waarna er een signaal naar het archief gaat. Het archief haalt de container met het document op evenals de container met de viewer die bij het document hoort. De viewer start op de server van het archief. Het resultaat gaat naar de klant in een formaat dat de klant op zijn eigen computersysteem kan interpreteren. Wie dus om een pdf-versie vraagt, krijgt een pdf-versie op het scherm. Dat betekent dat de bibliotheek ook de pdf-viewer onderhoudt. Zo wordt de klant niet belast met allerlei programma’s en updates die hij zelf moet hebben. Dat gebeurt allemaal in het e-Archive.

De Delfste implementatie van het elektronische archief. Informatie-objecten worden in XML-containers opgeslagen. Door middel van een zoeksysteem wordt de opgeslagen informatie boven water gehaald. De bijbehorende viewer wordt opgezocht en geactiveerd. De viewer draait op de archiefserver. De data wordt door de viewer vertaald en naar de klant gestuurd.

Demonstratiemodel

Het e-Archive-project heeft inmiddels twee jaar achter de rug. “Wij zijn de eersten die nu een referentie-implementatie hebben”, zegt Dekker. “De meesten zijn blijven steken in ideeën.” Alle bevindingen zijn inmiddels opgeschreven. Een demonstratie versie is gereed, en voor iedereen toegankelijk via een website (zie onderaan dit artikel).

Dekker toont een voorbeeld van een document uit het Utrechts Journaal van 1729 dat opnieuw elektronisch toegankelijk is gemaakt. Het origineel is opgeslagen als tiff en als tekst door middel van ‘optical character recognition’, waarbij het document is ingescand en automatisch als tekst wordt geïnterpreteerd.

Een ander voorbeeld zijn metingen van het verval van lichte elementen, gedaan in de jaren zestig en zeventig bij deeltjesversnellerinstituut CERN in Genève. Destijds zijn de gegevens vastgelegd op tapes, en die zijn bewaard gebleven. Wetenschappers ontwikkelden destijds het EPLOT- programma om energievervalschema’s grafisch weer te geven. Maar het programma bestaat al lang niet meer.

Ook de Europese onderzoeksorganisatie cern kampte met het beschikbaarhouden van meetgegevens uit de deeltjesversneller. Hier een grafische weergave van het element Neon.

“Op een zeker moment werden die vervaltijden weer interessant in verband met dateringen van gesteenten”, vertelt Dekker. “Men wilde graag die oude plaatjes weer kunnen maken. Wij togen toen aan de slag om de oude programmatuur te reanimeren in een nieuwe omgeving. Als we toch bezig zijn, kunnen we die oude informatie meteen verduurzamen voor de toekomst. We hebben het oorspronkelijke programma en de oorspronkelijke invoer opnieuw toegankelijk gemaakt, gebruikmakend van e-Archive-architectuur. Het programma draait weer in zijn oorspronkelijke vorm, maar nu als X-Windows-toepassing. Tevens hebben we een internetversie ontwikkeld waarin de gebruiker interactief kan zoeken in invoergegevens door een elementnummer te kiezen. Vervolgens krijgt de gebruiker de bijbehorende dataset en kan hij het programma een vervalschema laten tekenen.”

Hieruit hebben de informatici een algemene methode van aanpak gedestilleerd en ook aangetoond dat oude gegevens duurzaam kunnen worden bewaard. “Als we gegevens belangrijk genoeg vinden, kunnen we ze verduurzamen”, zegt Dekker.

Ook in commerciële zin zijn de belangen van elektronische duurzaamheid groot. Vijftien jaar geleden ontwierpen architecten gebouwen met CAD-programma’s. Ze bewaarden de laatste papieren versie plus een floppy. Als er nu een verbouwing plaatsvindt, willen de bouwers graag de originele tekening in digitale vorm terug, want niemand tekent nog met de hand. Dekker: “We hebben gezien dat het een mensjaar kan kosten om opnieuw die oude tekening in te voeren. Pas dan kan het echte werk beginnen. Dit toont het grote commerciële belang aan van duurzame elektronische opslag van informatie.”

Inmiddels hebben Dekker en zijn medewerkers een project gestart om een verzameling scripties van Delftse faculteiten op te slaan. “Voor ons is het een oefening om een echt archief op te zetten. Daarbij is Microsoft Word trouwens een van de meest ongelukkige formaten om documenten op te slaan, omdat het geen open broncode kent. We experimenteren nu wel met een open broncode van Open Office. Viewers in een digitaal archiefsysteem zullen altijd met open-broncode-software gemaakt moeten worden.”

De veranderingen voor bibliotheken in een tijd van elektronische vluchtigheid zijn groot. “Er is een levenslang archiefmanagement nodig”, zegt Dekker. “En dat is heel wat anders dan een boek in de kast zetten en het er honderd jaar later weer uit halen. Bibliotheken zullen een actievere rol moeten spelen dan ze decennialang hebben gedaan. Ze moeten samen met andere partijen zoeken naar methoden om archieven zo eenvoudig mogelijk te verduurzamen. Naast een cultureel aspect van algemeen erfgoed, en een wetenschappelijk aspect, gaat het bij verduurzamen ook om grote commerciële belangen voor bedrijven en instellingen.”

Meer weten over digitale archivering:

Dit artikel is een publicatie van Bennie Mols.
© Bennie Mols, alle rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 14 oktober 2003

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.