Je leest:

Digitale monnik ontcijfert ingescande handschriften

Digitale monnik ontcijfert ingescande handschriften

Auteur: | 28 maart 2012

Ingescande teksten kun je pas doorzoeken als de computer de letters en woorden van de tekst kan herkennen. Bij getypte teksten gaat dat meestal vrij aardig, maar oude handschriften vormen een groot probleem voor de computer. Het Nationaal Archief gebruikt sinds kort speciale software die het toch mogelijk maakt het handgeschreven archief van het Kabinet der Koningin te doorzoeken.

Het Nationaal Archief in Den Haag beheert zo’n 110 kilometer aan archiefmateriaal, foto’s en kaarten die van belang zijn voor ons ‘nationaal geheugen’. Ruim drie kilometer daarvan wordt ingenomen door het archief van het Kabinet der Koningin. In dat archief liggen alle wetten, koninklijke besluiten en correspondentie tussen de koningin en haar ministers op chronologische volgorde. Zodra de wettelijke termijn van overbrenging van het archief is aangebroken, brengt het Kabinet der Koningin de stukken over naar het Nationaal Archief. Daar ligt inmiddels de periode van 1798 tot 1988 in de archieven.

Proef uit het Nationaal Archief.
Rijksuniversiteit Groningen

Digitalisering

Net als veel andere archieven, bibliotheken en instellingen heeft het Nationaal Archief de laatste jaren veel tijd en geld besteed aan het digitaliseren van zijn archieven. Met behulp van optische tekenherkenning (Optical Character Recognition, oftewel OCR) is een deel van deze gedigitaliseerde collectie ook doorzoekbaar gemaakt. OCR werkt nog verre van feilloos, maar gedrukte teksten zijn er over het algemeen vrij goed mee te doorzoeken.

Voor handschriften en oude drukken is de situatie een stuk minder rooskleurig. Deze teksten variëren zo sterk in vorm dat optische tekenherkenning de individuele letters niet kan onderscheiden en herkennen. Om het Archief van het Kabinet der Koningin, dat grotendeels uit handgeschreven stukken bestaat, toch digitaal doorzoekbaar te maken, is het Nationaal Archief de samenwerking aangegaan met de Rijksuniversiteit Groningen in het project SCRATCH (SCRipt Analysis Tools for the Cultural Heritage_). SCRATCH is een deelproject van het CATCH-programma5xskyg dat vanuit NWO wordt gefinancierd.

Monk

Groningse wetenschappers op het gebied van kunstmatige intelligentie hebben Monk ontwikkeld: software die het mogelijk maakt historische archieven te ontsluiten. Monk werkt niet met optische tekenherkenning, maar met patroonherkenning. De tekst wordt dus niet letter voor letter herkend, maar woord voor woord. Zulke patroonherkenning vraagt om een grote rekencapaciteit; Monk draait daarom op Blue Gene, een supercomputer met ruim 12.000 processoren. Dat is zó veel rekenkracht dat de reguliere bureaucomputer hier de komende vijfentwintig jaar niet aan zal kunnen tippen.

Monk biedt het Nationaal Archief de mogelijkheid om het archief van het Kabinet der Koningin te ontsluiten. Uit tijds- en budgetoverwegingen is besloten om niet het gehele Archief, maar alleen de indices tot het Archief te gebruiken. Eén meter indices komt overeen met vijfentwintig meter van het chronologische archief. In deze indices staat, gesorteerd op onderwerp, precies beschreven waar in het archief welke stukken te vinden zijn. Ze zijn gedurende een lange periode door dezelfde persoon geschreven.

Training

Dat de indices veelal in hetzelfde handschrift zijn, is een groot voordeel voor Monk. Nadat de software automatisch heeft vastgesteld hoe de regels over het papier lopen, moet Monk namelijk getraind worden op het specifieke handschrift.

“Vrijwilligers kunnen via de website helpen om Monk te trainen”, aldus Hennie van Schie, archivaris bij het Nationaal Archief. “In een spelvorm geven zij aan waar in de scans de woorden staan en wat er precies staat. Deze resultaten neemt Monk mee in zijn berekeningen, waardoor de kwaliteit van de herkenning verbetert.”

Crowdsourcing

Scratch4All is niet het enige project dat vrijwilligers inzet om oude teksten doorzoekbaar te maken. Google gebruikt deze vorm van crowdsourcing al een tijdje in ReCaptcha, waarmee websites menselijke gebruikers van spambots kunnen onderscheiden. In het project Vele Handen helpen vrijwilligers het Stadsarchief Amsterdam om historische bronnen toegankelijk te maken.

Monk heeft minimaal vijf voorbeelden van hetzelfde woord in hetzelfde handschrift nodig om het een zesde keer enigszins te kunnen herkennen. “Vanaf twintig voorbeelden gaat het heel goed en bij vijftig bijna perfect”, aldus Van Schie. Familienamen en geografische namen komen over het algemeen niet in die aantallen voor in een handschriftencollectie. Dat betekent dat volledige herkenning nog niet haalbaar is, maar dat is ook niet wat het project nastreeft.

“Met Monk wil Scratch4All een instrument maken dat onderzoekers en erfgoedinstellingen kunnen gebruiken”, licht Van Schie toe. “Net als bij ingescande kranten zal niet elk zoekwoord resultaten opleveren, maar wel zoveel dat je gericht en efficiënt verder kunt zoeken.” De resultaten van Scratch4All zullen in de loop van 2012 ook toegankelijk worden voor andere erfgoedinstellingen.

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/taaltechnologie.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 28 maart 2012
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.