Je leest:

Monnikenwerk op de pc

Monnikenwerk op de pc

Auteur: | 15 oktober 2009

Zoeken in een tekst is simpel: je toetst gewoon Ctrl + F in. Maar het wordt een stuk lastiger als de tekst op papier staat. Je zal de tekst zal dan eerst moeten digitaliseren. Vooral bij oude teksten is dit nog een heel karwei.

Stel, je wilt meer weten over je afkomst en gaat in archieven op zoek naar oude documenten over je voorvaderen. Dan zul je heel wat teksten door moeten spitten in de hoop een bekende naam tegen te komen. Als al die oude documenten nu gedigitaliseerd waren, zou dat je een hoop tijd besparen. Binnen een paar muisklikken vind je dan alle informatie die je zoekt. Wereldwijd zijn dan ook steeds meer bibliotheken en archieven bezig hun collecties te digitaliseren.

OCR

Digitaliseren is een stuk lastiger dan het lijkt. Na het inscannen heb je namelijk alleen nog maar een digitale afbeelding van het document. De computer heeft nog geen idee van de inhoud, en weet niet zelfs niet eens dat het een tekst is. Voor automatische tekstherkenning heb je daarom speciale OCR-software nodig. OCR staat voor Optical Character Recognition. Deze software herkent de letters van de tekst met behulp van de verschillende lettertypes die hij kent. Daarbij gebruikt hij ook nog woordenlijsten van de taal, zodat hij zelf kan bedenken dat het logischer is dat ergens ‘mooi meisje’ staat in plaats van ‘inooi meisje’.

Deze automatische tekstherkenning levert zelden een foutloze tekst op. Vooral bij oude teksten maakt de computer nog veel fouten, het slagingspercentage ligt dan meestal rond de tachtig procent. Hiervoor zijn verschillende oorzaken aan te wijzen. Ten eerste is het document vaak van slechte kwaliteit, waardoor de scan slecht leesbaar is. Daarnaast zijn oude teksten vaak in een voor de computer onbekend lettertype gedrukt. Ten slotte heeft de computer bij oude teksten ook niet veel aan zijn moderne woordenlijsten: de ene keer staat er ‘snijden’ en de andere keer ‘snyden’ of ‘sniden’. Juist bij oude teksten wil je meestal niet dat hij zulke oude spellingen gaat verbeteren.

Aan het Instituut voor Nederlandse Lexicologie werken verscheidene taalkundigen aan een oplossing voor deze spellingsvariatie in oude teksten. Zij maken bijvoorbeeld een speciale historische woordenlijst zodat de OCR-software de woorden beter kan herkennen. Bovendien werken ze aan een slim zoeksysteem dat als je zoekt naar ‘snijden’ ook oudere spellingsvarianten en vervoegingen als ‘sniden’ en ‘snydt’ aandraagt.

Hulp van internetters

In Amerika is bovendien een ander initiatief van start gegaan: reCaptcha, onlangs opgekocht door Google. Een captcha is zo’n vakje met vervormde letters en cijfers die je soms moet overtypen voor je toegang tot een site krijgt. Zo weet de site zeker dat je een menselijke gebruiker bent en geen computer die spam wil verspreiden. ReCaptcha maakt hier handig gebruik van door woorden die niet herkend worden door OCR-software in te zetten als captcha. Je typt dan twee woorden over: één onbekend woord en één controlewoord. Dit controlewoord geeft je toegang tot de site en verzekert de onderzoekers dat het onbekende woord ook serieus is overgetypt. Als drie verschillende gebruikers het onbekende woord op dezelfde manier overgetypt hebben, gaat het systeem er van uit dat dat de juiste tekst is op de afbeelding.

ReCaptcha’s werken tweeledig: ze zorgen dat spambots niet op een site kunnen komen én helpen met digitaliseren van oude teksten. Bij een ReCaptcha moet je beide woorden overtypen. Het ene woord is onherkenbaar voor OCR-software en het andere is een bekend controlewoord. Beide woorden zijn op dezelfde manier vervormd, zodat je niet weet welk woord nog herkend moet worden. Als drie mensen het onbekende woord op dezelfde manier overgetypt hebben, ziet de computer dat als de juiste herkenning van het woord.

Dankzij hun systeem herkent ReCaptcha oude teksten voor 99 procent foutloos, net zo goed als wanneer mensen de hele tekst zouden overtypen. Alleen al in 2008 zijn 1,2 miljard ReCaptcha’s ingevuld op verschillende websites. Zo zijn meer dan 440 miljoen woorden correct herkend: net zoveel als er in 18.000 boeken van 400 bladzijden staan. Zo helpen alle internetters een beetje mee aan het digitaliseren van oude teksten.

Lees verder:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/ocr.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 15 oktober 2009

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.