10 februari 2017

Wat we kunnen leren over de Britse geschiedenis van 35,9 miljoen krantenartikelen

Door de toenemende digitalisering van historische bronnen kan je boeken, kranten, tijdschriften, brieven en andere historische bronnen niet alleen doorspitten, maar ook kwantitatief doorvlooien op patronen. En dat opent een nieuwe wereld!

In een eerder blog schreef ik over de toenemende digitalisering van historische bronnen. Voor historici betekent dit niet alleen dat we minder vaak in het archief zitten. Doordat gedigitaliseerde bronnen op woordniveau doorzoekbaar zijn, voorspellen sommige wetenschappers al enige tijd dat historisch onderzoek zich steeds meer zal richten op het ontdekken van patronen en trends in grote verzamelingen gedigitaliseerde bronnen.

Lang leek dit toekomstmuziek, maar een paar weken geleden publiceerde een groep onderzoekers een artikel waarin ze beschrijven hoe ze, met behulp van kwantitatieve methodes, patronen ontdekten in 35.9 miljoen krantenartikelen, gepubliceerd in 120 Britse kranten tussen 1800 en 1950. Hoe gingen ze te werk, wat vonden ze, en wat kunnen Nederlandse historici hiervan leren?

Van relatief belang

Doordat de Engelse krantenartikelen op woordniveau doorzoekbaar zijn, waren de onderzoekers in staat om te ontdekken hoe vaak een woord of een combinatie van woorden – ook wel een n-gram genoemd – gebruikt werd in de Engelse pers. Om de resultaten betrouwbaarder te maken is het echter nog beter om te kijken hoe vaak een woord(combinatie) terugkomt in relatie tot alle woorden die in een specifiek jaar gebruikt werden. Als je een woord 10 keer vindt in een verzameling van 100 woorden is dat namelijk veel belangrijker dan als die verzameling uit 100.000 woorden bestaat. Dit is wat de onderzoekers deden: ze gingen op zoek naar de ‘frequentie van gebruik’ van bepaalde n-grams. Met behulp van de computer telden ze hoe vaak een woord(combinatie) voorkwam en dit deelden ze door het totale aantal woorden. Hierdoor kunnen we het relatieve belang van een n-gram meten, dus hoe belangrijk een naam, of een begrip, is in relatie tot andere namen en begrippen.

Negentiende-eeuwse kranten schreven veel over de spoorwegen. Het ging niet alleen om de positieve kanten van dit nieuwe transportmiddel, maar ook vaak om de vele ongelukken. Bij dit ongeluk in 1865 raakte de beroemde schrijver Charles Dickens ernstig gewond.

Paarden en treinen

Welke patronen hebben de onderzoekers gevonden in de Engelse krantenartikelen? Een interessant onderdeel van hun onderzoek richt zich op de opkomst en ondergang van bepaalde technologieën. Zo laten ze zien hoe ‘elektriciteit’ in 1898 voor het eerst meer gebruikt werd dan ‘stoom’, of dat ‘de trein’ pas in 1902 belangrijker werd dan ‘het paard’. Hoewel de negentiende eeuw vaak gezien wordt als de ‘railway age’, bleef paardenkracht gedurende de de hele periode enorm belangrijk. Ook onderzochten ze of de kranten vaker over mannen of vrouwen schreven. Hoewel ‘hij’ gedurende de hele periode veel vaker gebruikt werd dan ‘zij’, schreven de kranten vanaf 1900 wel steeds vaker over ‘vrouwen’ in verhouding tot ‘mannen’.

Daarnaast konden de onderzoekers ook nagaan wanneer bepaalde politieke bewegingen, zoals het anarchisme of de suffragettes, die rond 1900 streden voor vrouwenkiesrecht, veel invloed uitoefenden op het publieke debat. Het onderzoek heeft niet geleid tot radicaal nieuwe inzichten. De onderzoekers hebben de nieuwe methode vooral gebruikt om bestaande theorieën, bijvoorbeeld over man/vrouw verhoudingen in de negentiende eeuw, te testen. Een van de meest vergaande beloftes van sommige voorstanders van de Digital Humanities, het vinden van nieuwe patronen die we eerder over het hoofd hebben gezien, wordt, in ieder geval door dit onderzoek, nog niet ingelost.

De protesten van suffragettes werden vaak hardhandig door de politie uiteengeslagen. Om zich hier tegen te beschermen richtte Emmeline Pankhurst een vrouwelijke ‘bodyguard’ op die zich bekwaamde in de vechtsport Jiujitsu. Uit het satirische blad Punch (1910).

Patronen in de Nederlandse Pers

Is dit soort onderzoek ook in Nederland al mogelijk? Zeker! Hoewel de Engelse onderzoekers het meten van de ‘frequentie van gebruik’ van n-grams als iets nieuws presenteren, is dit al een tijdje mogelijk in Nederland. Met behulp van een online toegankelijke ‘N-gram viewer’, ontwikkeld door de Universiteit van Amsterdam, kunnen we op zoek gaan naar de ‘frequentie van gebruik’ van n-grams in de gedigitaliseerde Nederlandse kranten van de Koninklijke Bibliotheek in Den Haag.

Een vergelijking tussen paard en trein laat bijvoorbeeld zien dat dit laatste woord rond 1900 voor het eerst meer gebruikt werd. Ook kunnen we het gebruik van mannen en vrouwen met elkaar vergelijken, of stoom en elektriciteit.\ Net als de Engelse studie, zouden we dus kunnen onderzoeken of bepaalde theorieën over de Nederlandse geschiedenis kloppen. Zo zou Nederland pas relatief laat in de negentiende eeuw geïndustrialiseerd zijn, maar zien we deze ontwikkeling ook terug in de pers?

Meten is weten?

Niet alle historici zijn blij met dit soort onderzoek. Ze wijzen op allerlei valkuilen en geloven niet dat historische ontwikkelingen kwantitatief ‘meetbaar’ zijn. Wat betekent het nou echt dat kranten op een gegeven moment meer over vrouwen beginnen te schrijven? Wijst dit op een betere maatschappelijke positie van vrouwen? Of laat het zien dat kranten zich vooral steeds meer richten op vrouwelijke lezers om geld te verdienen? Om dit soort ontwikkelingen echt te begrijpen zullen we de teksten altijd kwalitatief moeten blijven interpreteren.

Het is dan ook niet heel verwonderlijk dat de Digital Humanities door meer traditionele historici vaak als een bedreiging gezien worden. Het leuke aan het Engelse onderzoek is dat het de nadruk legt op het feit dat ‘digitale’ historici niet zonder de resultaten en methodes van ‘traditionele’ historici kunnen. Hoe weten we bijvoorbeeld wat we moeten meten? Hoe stellen we de verzameling van bronnen samen die we willen meten? En bovenal, hoe interpreteren we de resultaten van digitaal onderzoek?

De Engelse onderzoekers wijzen erop dat de strikte scheiding tussen digitale en normale geschiedenis en tussen kwalitatieve en kwantitatieve methodes eigenlijk nergens op slaat. Kwantitatief onderzoek heeft kwalitatief onderzoek nodig als basis en dit kwantitatieve onderzoek zal uiteindelijk altijd leiden tot weer meer kwalitatief onderzoek: interpreteren – meten – interpreteren – enz. volgen elkaar continu op. Nu bronnen steeds vaker digitaal beschikbaar, en doorzoekbaar, zijn, zouden historici zich moeten realiseren dat de beide manieren van onderzoek elkaar niet uitsluiten, maar alleen maar aanvullen.

Meer weten? Voor het blog van de Koninklijke Bibliotheek schreef ik een langer Engelstalig stuk over dit onderwerp. Vanaf Mei werk ik voor een half jaar aan mijn eigen Digital Humanities project bij de KB. Hierover later meer.

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.