Naar de content

'Met dit soort machines is the sky the limit'

Henk Wals van het IISG over de ‘digitale revolutie’ in de geesteswetenschappen

Michael Sauers, CC by-nc 2.0

12 miljoen euro kende wetenschapsfinancier NWO begin deze zomer toe aan het project CLARIAH, waarmee Nederlandse geesteswetenschappers een ‘digitale infrastructuur’ mogen gaan bouwen. Waar is dat voor nodig en wat levert het op? Henk Wals, directeur van het Internationaal Instituut voor Sociale Geschiedenis (IISG) en een van de intiatiefnemers van het project, licht het toe.

12 augustus 2014

Big Data is het helemaal tegenwoordig. Zelfs in wetenschapsgebieden die traditioneel weinig met data-analyse doen, zoals de geesteswetenschappen. Toch gaan historici, mediaonderzoekers en taalkundigen er binnenkort mee aan de slag dankzij het grote project Common Lab Research Infrastructure for the Arts and Humanities (CLARIAH). Het project sluit aan bij een ware ‘revolutie’ die de laatste jaren gaande is binnen de geesteswetenschappen.

Geesteswetenschappers werken met documenten uit archieven, maar ook tekst, beeld en geluid uit de media. Steeds meer van dit soort bronnen kunnen nu worden gedigitaliseerd. Het voordeel van gedigitaliseerde bronnen is dat je ze met speciale computerprogramma’s kan doorzoeken. Een computer kan digitale historische archiefstukken razendsnel scannen op bepaalde woorden, woordcombinaties of veranderingen in woorden. Door de inhoud van allerlei verschillende soorten digitale bronnen ook nog eens met elkaar te vergelijken en te combineren kan je conclusies trekken die ver buiten het bereik van de traditionele, eenzame archiefonderzoeker liggen.

Maar voordat dat allemaal zover is moet er het een en ander aan tools ontwikkeld worden en daarvoor is nu dus 12 miljoen euro beschikbaar gesteld. ‘Een digitale infrastructuur’, zoals directeur Henk Wals van het Internationaal Instituut voor Sociale Geschiedenis (IISG) in Amsterdam het noemt.

12 miljoen is een hoop geld. Waar is dat precies voor nodig?
“Er is op dit moment een revolutie gaande in de geesteswetenschappen. Een digitale revolutie, en dan vooral op het gebied van de beschikbare onderzoeksmethoden. Die revolutie is overigens op sommige gebieden al langer bezig. Maar je ziet de laatste jaren, doordat er steeds meer materiaal gedigitaliseerd wordt en ook doordat de informatica steeds meer interessante dingen kan doen voor geesteswetenschappers, dat die revolutie ook echt zijn beslag gaat krijgen. Maar al die data en de tools die nodig zijn om ze te analyseren staan op allerlei verschillende plekken. Daarom is een soort ‘digitale infrastructuur’ nodig om al die tools en data bij elkaar te brengen.”

Die infrastructuur bestaat dus vooral uit computerprogramma’s om data te analyseren?
“Onder andere. Wat we in wezen doen is de data en de analyse-tools bij elkaar brengen. De tools moeten zo in elkaar zitten dat ze zoveel mogelijk soorten data aankunnen. En de data op zijn beurt moet zo gestandaardiseerd zijn dat zoveel mogelijk tools ermee kunnen werken. Het gaat dus om data en analyse-tools die op een digitale manier met elkaar kunnen praten.”

Visualisatie van gemiddelde levensverwachting wereldwijd door de eeuwen heen.

Clio Infra

“Als je het over data hebt dan gaat het om drie soorten data: ten eerste de gestructureerde data die opgeslagen ligt in verschillende databases. Daarbij komt de laatste tijd steeds meer ongestructureerde data. Dan gaat het om grote hoeveelheden gedigitaliseerde, maar ongestructureerde teksten uit archieven. Daarmee ga je anders om dan met de gestructureerde data. Tenslotte heb je zaken als films, plaatjes en audio. Daarmee ga je weer anders om.”

Echt big data dus. Dat gaat het ouderwetse handwerk te boven?
“Om een voorbeeld te geven. Op het IISG hebben wij het archief van de vakbond FNV. Dat zijn kilometers aan papier. Dat wordt nu stukje bij beetje gedigitaliseerd. Als ik bijvoorbeeld wil weten hoe die vakbond de afgelopen decennia heeft gereageerd op globalisering zou ik al die documenten, brochures en notulen moeten doorspitten. We zijn nu zover dat we een dataset kunnen maken die al die documenten die relevant zijn voor een dergelijke onderzoeksvraag op een rij kan zetten in volgorde van relevantie.”

“Dat betekent niet dat al het onderzoek meteen gedaan is, maar wel dat je veel sneller gegevens kan verzamelen. Als je daar ook nog visualisatietools op kan zetten die grafieken kan genereren en netwerken in kaart kan brengen helpt dat je als geesteswetenschapper heel erg met het bereiken van nieuwe inzichten.”

In een enquête in De Groene Amsterdammer bleek dat heel veel geesteswetenschappers digital humanities de belangrijkste ontwikkeling binnen hun vakgebied vinden. Zijn de traditionele onderzoeksmethoden uitgeput?
“Je moet deze digitale revolutie niet zien als de vervanging van een methode door een andere. De traditionele methoden – interpretatie, goed geschreven verhalen – blijven bestaan, maar ze kunnen ondersteund worden door nieuwe onderzoeksmethodes. Daarmee kan je nieuwe, maar ook vooral beter onderbouwde conclusies trekken. En het is ook een soort efficiency slag, omdat je in dezelfde tijd veel meer kan lezen en onderzoeken dan als individuele wetenschapper mogelijk is. Als je een machine hebt die documenten voor je leest en daar alvast voorlopige conclusies aan hangt dan geldt: the sky is the limit.”

Wie correspondeerde met wie?

Huygens ING

Het gaat dus vooral om het beantwoorden van de grote en brede onderzoeksvragen…
“Ja vragen waar je enorm veel materiaal voor moet analyseren. Een ander voorbeeld is wat we deden bij het Huygens Instituut, waar ik voorheen werkte. We hadden daar een project over zeventiende-eeuwse kennisontwikkeling. We hadden daar duizenden brieven van zeventiende-eeuwse geleerden gedigitaliseerd. We wilden toen weten waar bepaalde nieuwe kennis in zo’n gezelschap van geleerden voor het eerst opdook. Waar en hoe werd nieuwe kennis bediscussieerd en hoe ging het van de ene naar de andere geleerde?”

“Daarvoor heb je heel geavanceerde tools nodig die documenten in de verschillende Europese talen van die tijd kunnen analyseren. En visualisatietools die vervolgens correspondentie-netwerken in kaart kunnen brengen. Op die manier kan je als geesteswetenschapper je conclusies een heel stuk steviger maken. Je kan in plaats van de correspondentie van één zo’n zeventiende-eeuwse wetenschapper er heel veel tegelijk onderzoeken. Dan gaan je conclusies meer richting bèta-wetenschap: ze worden veel harder en beter onderbouwd.”

Is dat nodig dan, om geesteswetenschap meer richting bèta te trekken? Geesteswetenschapper zouden zich bezig met interpretatie, niet met kwantitatief onderzoek…
“Ik zeg niet dat de geesteswetenschapper meer op bètawetenschappen moeten gaan lijken, maar dat dit is een overeenkomst. Wat ik net ook aangaf, met de voorbeelden over de FNV en de zeventiende-eeuwse wetenschappers, is dat je heel veel gegevens bij elkaar brengt en op basis daarvan je conclusies trekt. Maar uiteindelijk zijn we nog steeds geesteswetenschappers die interpreteren en mooie verhalen schrijven. Dat verhaal is op deze manier alleen beter onderbouwd.”

“Ik vind het jamemr dat er nu een soort richtingenstrijd lijkt te ontstaan binnen de geesteswetenschappen. Met aan de ene kant wetenschappers die deze nieuwe methoden ondersteunen en aan de andere kant mensen die het helemaal niks vinden, omdat ze denken dat digitalisering niet bij de geesteswetenschappen past. Maar digitalisering is iets wat naast de traditionele methoden gaat bestaan. Het is een manier om je conclusies beter te kunnen onderbouwen.”

Hoe verspreidde bepaalde kennis zich in een netwerk van zeventiende geleerden? Een netwerkvisualisatie kan dat duidelijk maken.

Huygens ING
ReactiesReageer