Je leest:

Miljoenen subsidie voor digitale archieven

Miljoenen subsidie voor digitale archieven

Auteur: | 12 december 2008

Minister Plasterk heeft 9 miljoen euro extra subsidie toegezegd aan het Europese onderzoeksproject CLARIN. Het doel van het project, gecoördineerd door de Universiteit Utrecht, is om Europese digitale archieven breed toegankelijk te maken. Hiervoor ontwerpen de onderzoekers verschillende nieuwe taaltechnologische applicaties. Steven Krauwer, die dit project samen met zijn collega Jan Odijk coördineert, vertelt welke rol taaltechnologie speelt in het project.

Door heel Europa hebben instellingen als universiteiten, bibliotheken en musea grote collecties aan teksten, afbeeldingen en films in hun archief liggen. Veel van deze instellingen zijn druk bezig om hun archief te digitaliseren. Hierdoor wordt de collectie beter toegankelijk voor het grote publiek én blijft de originele collectie langer goed. Al deze instellingen hebben echter hun eigen manier van digitaliseren en hun eigen zoeksysteem om items weer terug te vinden in hun digitale archief. Het is daardoor niet makkelijk om te overzien wat allemaal in de Europese archieven ligt opgeslagen en waar het te vinden is.

Afgelopen zomer is het Europese project CLARIN (Common Language Resources and Technology Infrastructure) van start gegaan. Onderzoeksinstituten uit 32 landen gaan zich de komende jaren bezighouden met het aan elkaar koppelen van de archieven en met het toepassen van technologische hulpmiddelen om de digitale archieven breed toegankelijk en makkelijk doorzoekbaar te maken. Minister Plasterk van Onderwijs, Cultuur en Wetenschap heeft CLARIN deze week een extra subsidie van 9 miljoen euro gegeven. Een subsidie waar projectcoördinator Steven Krauwer van de Universiteit Utrecht vast heel blij mee is.

Steven Krauwer coördineert samen met Jan Odijk (beiden van de Universiteit Utrecht) het CLARIN-project. Hieraan doen maar liefst 147 leden mee uit 32 verschillende landen.

Gefeliciteerd met de subsidie! Weten jullie al wat je met het extra geld gaat doen? “We zijn inderdaad heel blij met de subsidie! We gaan eigenlijk twee dingen doen. Op de eerste plaats willen we bestaande digitale archieven aan elkaar koppelen, zodat gebruikers van achter hun bureau gemakkelijk op zoek kunnen gaan naar geschreven of gesproken documenten. Momenteel moet je nog voor elk document uitvinden in welk archief het ligt en vervolgens toegang tot dat archief zien te krijgen. Het lastige hierbij is dat elk archief zijn eigen manier heeft om informatie te coderen, op te slaan of terug te vinden. Deze verschillen willen wij voor de gebruiker totaal onzichtbaar maken, net zo goed als je bij mobiel telefoneren helemaal niet wilt weten in welk land iemand zich bevindt of wie zijn provider is.

Op de tweede plaats willen we de gebruiker ook de mogelijkheid bieden om bewerkingen uit te voeren op de gevonden documenten (bijvoorbeeld: ‘zoek een aantal documenten over een bepaald onderwerp en vat de inhoud samen’ of ‘zoek alle werkwoordsvormen in de tegenwoordige tijd’)."

Wat voor taaltechnologische toepassingen zullen ontwikkeld worden voor dit project? “Binnen dit project gaan we eigenlijk geen nieuwe taaltechnologie ontwikkelen. We willen bestaande taal- en spraaktechnologietoepassingen inbouwen in het systeem. Een probleem hierbij is dat veel bestaande toepassingen onafhankelijk van elkaar ontwikkeld zijn en niet op elkaar aansluiten. De subsidie van minister Plasterk gaan we vooral gebruiken om dit aan te passen. Het Europese geld wordt vooral gebruikt om op Europees niveau de archieven aan elkaar te koppelen en om te zorgen dat de activiteiten in de deelnemende landen op elkaar afgestemd zijn, zodat de onderzoeker in Nederland dezelfde mogelijkheden heeft als zijn collega in Tsjechië.”

Als ik straks in een Tsjechisch archief wil zoeken, moet ik dan eerst Tsjechisch leren of kan ik ook mijn Nederlandse zoektermen gebruiken? “Wij willen dat je aan Nederlandse zoektermen genoeg hebt. Als je die Tsjechische documenten ook wilt lezen moet je natuurlijk die taal wel kennen, maar je kunt met vertaalhulpmiddelen wel al een ruwe vertaling krijgen. Als de vertaaltechnologie voldoende ontwikkeld is om bruikbare vertalingen te produceren willen we die natuurlijk opnemen in het systeem. De hele CLARIN-infrastructuur maken we zo dat toekomstige technologieën makkelijk kunnen worden toegevoegd.”

Dit project is vooral gericht op onderzoekers in de Geesteswetenschappen en de Sociale Wetenschappen. Waarom alleen op hen? “In principe kan iedereen van het systeem gebruik maken, maar onze doelgroep bestaat voorlopig uit die onderzoekers. Archieven hebben namelijk elk zo hun eigen gebruiksvoorwaarden (bv. niet voor winstdoeleinden) waar wij rekening mee moeten houden. Doordat we van te voren een doelgroep hebben vastgesteld, kunnen we hun wensen combineren met de voorwaarden van de archieven. Als het project eenmaal op poten staat kunnen we natuurlijk ook gaan kijken naar de wensen van andere groepen, maar laten we eerst maar eens proberen om iets nuttigs te maken voor de huidige doelgroep.”

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/stevin.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 12 december 2008

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.