Je leest:

Delven in het museum

Delven in het museum

Text mining helpt nieuwe verbanden in logboeken ontdekken

Auteur: | 22 januari 2010

Naast miljoenen objecten liggen er in het Nationaal Natuurhistorisch Museum Naturalis in Leiden ook duizenden pagina’s aan logboeken. Deze staan boordevol informatie over de objecten in de collectie van het Naturalis. Met behulp van taaltechnologie kunnen onderzoekers nieuwe ontdekkingen doen in deze oude logboeken.

De Rhinella marina, in de volksmond agapad genoemd, heette vroeger ook wel Bufo marinus of Chaunus marinus. De benaming van het beestje werd de afgelopen eeuwen regelmatig veranderd in de officiële taxonomieën. Dit zijn classificatiesystemen voor de biologie waarin bijvoorbeeld onderscheid wordt gemaakt tussen zoogdieren, reptielen en amfibieën. Als je als bioloog onderzoek doet naar de agapad zijn al die verschillende benamingen knap lastig. Onder welke naam vind je nu de informatie die je nodig hebt?

De agapad heeft sinds zijn ontdekking onder verschillende Latijnse namen te boek gestaan. Dat maakt zoeken naar informatie over de pad in grote hoeveelheden tekst erg lastig. Op welke naam moet je zoeken?

MITCH

Taaltechnologen van de Universiteit van Tilburg helpen de biologen hierbij een handje. Zij hebben in het kader van het MITCH-project een systeem ontwikkeld waarmee de onderzoekers van Naturalis makkelijker en sneller kunnen zoeken in hun collectie. Het systeem ontdekt zelf de verschillende benamingen voor hetzelfde beestje en kan de onderzoeker zo wijzen op informatie die hij nooit had gevonden als hij slechts op één van deze namen had gezocht. Ook kan het systeem de onderzoeker wijzen op mogelijke fouten in het archief, bijvoorbeeld als een kikker per ongeluk onder de reptielen is ingedeeld in plaats van onder de amfibieën.

Taaltechnologe Marieke van Erp heeft de afgelopen jaren hard gewerkt aan MITCH. “Binnen MITCH hebben we ons bezig gehouden met de veldboeken en registers over reptielen en amfibieën. Veldboeken zijn geschreven door onderzoekers tijdens expedities en beschrijven waar, wanneer en onder welke omstandigheden een exemplaar is verzameld. In de registers staat wanneer en hoe het exemplaar in de collectie van Naturalis is gekomen.” Alle teksten zijn overgetypt om digitale bewerking mogelijk te maken. Automatische herkenning was helaas niet mogelijk, omdat sommige logboeken in ouderwetse krulhandschriften geschreven waren.

Eén van de registers uit het MITCH-project. In totaal zijn 33 registers (3.813 pagina’s voor 21.870 exemplaren) en 47 veldboeken (3.859 pagina’s met 17.818 exemplaren) gebruikt in het project.

Uitgraven

Vervolgens is de informatie uit de logboeken automatisch omgezet naar een gestructureerde database. In deze database kan de computer met behulp van text mining patronen ontdekken in de verschillende teksten. De naam ‘text mining’ verwijst naar de mijnbouw, waarbij stoffen uit de grond gedolven worden. Op een vergelijkbare manier graaft text mining waardevolle informatie uit grote tekstbestanden uit. De computer kan bijvoorbeeld concluderen dat het verspreidingsgebied van een bepaalde kikkersoort groter is dan gedacht, door de informatie samen te voegen die aan de verschillende benamingen van de kikker toegeschreven is.

“Dankzij MITCH is de informatiecollectie van Naturalis beter toegankelijk voor de onderzoekers daar”, aldus Van Erp. Ook in andere projecten werken onderzoekers aan manieren om het cultureel erfgoed beter doorzoekbaar te maken. Deze projecten zijn verzameld in het grote NWO-programma CATCH, waarbinnen veertien projecten vallen. Zo is het bijvoorbeeld dankzij het CHoral-project ook mogelijk om te zoeken in de toespraken van Koningin Wilhelmina voor Radio Oranje tijdens de Tweede Wereldoorlog, en om het fragment vervolgens direct te beluisteren. De gigantische archieven die in verschillende musea en instituten opgeslagen liggen zijn dankzij al deze nieuwe technieken in de toekomst veel makkelijker toegankelijk.

Lees verder:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/text-mining.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 22 januari 2010
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.