De Rhinella marina, in de volksmond agapad genoemd, heette vroeger ook wel Bufo marinus of Chaunus marinus. De benaming van het beestje werd de afgelopen eeuwen regelmatig veranderd in de officiële taxonomieën. Dit zijn classificatiesystemen voor de biologie waarin bijvoorbeeld onderscheid wordt gemaakt tussen zoogdieren, reptielen en amfibieën. Als je als bioloog onderzoek doet naar de agapad zijn al die verschillende benamingen knap lastig. Onder welke naam vind je nu de informatie die je nodig hebt?

MITCH
Taaltechnologen van de Universiteit van Tilburg helpen de biologen hierbij een handje. Zij hebben in het kader van het MITCH-project een systeem ontwikkeld waarmee de onderzoekers van Naturalis makkelijker en sneller kunnen zoeken in hun collectie. Het systeem ontdekt zelf de verschillende benamingen voor hetzelfde beestje en kan de onderzoeker zo wijzen op informatie die hij nooit had gevonden als hij slechts op één van deze namen had gezocht. Ook kan het systeem de onderzoeker wijzen op mogelijke fouten in het archief, bijvoorbeeld als een kikker per ongeluk onder de reptielen is ingedeeld in plaats van onder de amfibieën.
Taaltechnologe Marieke van Erp heeft de afgelopen jaren hard gewerkt aan MITCH. “Binnen MITCH hebben we ons bezig gehouden met de veldboeken en registers over reptielen en amfibieën. Veldboeken zijn geschreven door onderzoekers tijdens expedities en beschrijven waar, wanneer en onder welke omstandigheden een exemplaar is verzameld. In de registers staat wanneer en hoe het exemplaar in de collectie van Naturalis is gekomen.” Alle teksten zijn overgetypt om digitale bewerking mogelijk te maken. Automatische herkenning was helaas niet mogelijk, omdat sommige logboeken in ouderwetse krulhandschriften geschreven waren.

Uitgraven
Vervolgens is de informatie uit de logboeken automatisch omgezet naar een gestructureerde database. In deze database kan de computer met behulp van text mining patronen ontdekken in de verschillende teksten. De naam ‘text mining’ verwijst naar de mijnbouw, waarbij stoffen uit de grond gedolven worden. Op een vergelijkbare manier graaft text mining waardevolle informatie uit grote tekstbestanden uit. De computer kan bijvoorbeeld concluderen dat het verspreidingsgebied van een bepaalde kikkersoort groter is dan gedacht, door de informatie samen te voegen die aan de verschillende benamingen van de kikker toegeschreven is.
“Dankzij MITCH is de informatiecollectie van Naturalis beter toegankelijk voor de onderzoekers daar”, aldus Van Erp. Ook in andere projecten werken onderzoekers aan manieren om het cultureel erfgoed beter doorzoekbaar te maken. Deze projecten zijn verzameld in het grote NWO-programma CATCH, waarbinnen veertien projecten vallen. Zo is het bijvoorbeeld dankzij het CHoral-project ook mogelijk om te zoeken in de toespraken van Koningin Wilhelmina voor Radio Oranje tijdens de Tweede Wereldoorlog, en om het fragment vervolgens direct te beluisteren. De gigantische archieven die in verschillende musea en instituten opgeslagen liggen zijn dankzij al deze nieuwe technieken in de toekomst veel makkelijker toegankelijk.
Lees verder:
- Film over het CATCH-project, waarin ook Marieke van Erp aan het woord komt
- Marieke van Erp vertelt bij Noorderlicht Radio over MITCH (27-01-2009)
- MITCH-project (Engels)
- CATCH-project
Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/text-mining.atom", “max”=>"5", “detail”=>"normaal"}