
Ik heb net alle cablegate-files van de Wikileaks-website gedownload — gewoon omdat het kan. Er is weinig voor nodig: een kopje koffie en een stel unix-commando’s, zoals het programma ‘wget’ dat automatisch websites kan downloaden.
Zodra alles binnen is heb ik in een paar seconden de tot nu toe 51 artikelen te pakken waarin verwezen wordt naar Nederland. In een handomdraai zou ik de website zelf online kunnen zetten, en me voegen bij het leger van mirror sites die zijn opgezet om ervoor te zorgen dat de gegevens van WikiLeaks beschikbaar blijven.
Of ik zou me kunnen aansluiten bij het legertje ‘hacktivisten’ die websites van bedrijven platleggen die de WikiLeaks-organisatie dwarsbomen. Zonder mijn stoel te verlaten kan ik een activist worden met invloed op wereldwijde gebeurtenissen. Ik zou mijn studenten kunnen aanmoedigen hetzelfde te doen. We leren onze studenten om met automatische technieken informatie en kennis uit grote hoeveelheden teksten te halen. Het vak Text Mining zou helemaal rondom WikiLeaks georganiseerd kunnen worden.
Virtuele tijdmachine
Activisme is terug van weggeweest, lijkt het. In sommige Europese hoofdsteden hangt een rellerige sfeer, en onze postbodes staken alweer voor de derde keer. Toch is het kinderspel vergeleken met de lange periode tussen ruwweg 1900 en 1940, toen de staking zijn gouden eeuw beleefde. Met het Internationaal Instituut voor Sociale Geschiedenis, dat dit jaar 75 jaar bestaat, deden we onderzoek naar de berichtgeving in kranten over stakingen in die periode. Zou het mogelijk zijn om automatisch krantenartikelen te vinden die gaan over de dreiging van een staking? Nog voordat het woord ‘staking’ is gevallen, als de onrust alleen nog door een oplettende journalist is opgepikt?

We gingen op zoek naar artikelen over stakingen die daadwerkelijk hadden plaatsgevonden, en vervolgens ook naar de artikelen in de periode daarvoor. Zo hadden we voorbeelden van het taalgebruik over een dreigende staking. Met deze voorbeelden in de hand konden we de computer vervolgens een model laten opstellen van berichten over stakingsdreigingen.
Zo’n model herkent automatisch nieuwe berichten van hetzelfde type. Het model, dat gevoelig blijkt te zijn voor woorden als ‘dreigend’, ‘ultimatum’, en ‘rijksbemiddelaar’, vond zulke artikelen inderdaad. En daarnaast ook stakingsdreigingen die uiteindelijk niet leidden tot een staking. Een virtuele tijdmachine, dus, die kritische punten in de tijdlijn detecteert waarop de loop der gebeurtenissen twee kanten op kan.
Sociale netwerken afleiden
Interessant of griezelig? Dat vraag ik me ook af als ik op weg naar het werk met een collega fantaseer over wat we met WikiLeaks kunnen doen. Automatisch alle namen van personen, locaties en organisaties vinden, bijvoorbeeld, en daar een zoekmachine voor bouwen, met Google Maps en een tijdbalk. Of relaties tussen mensen vinden en classificeren als vriendschappelijk, neutraal, of vijandig, en sociale netwerken afleiden. Belangrijke schaduwfiguren opsporen, en conflictdreigingen detecteren, zoals we met de stakingen deden. De computer het ploegwerk laten doen, en de resultaten online zetten. Met een beetje kennis van text mining is het in een mum van tijd mogelijk.
Gezocht: hacktivist. Signalement: onopvallend persoon met laptop. Houdt zich op rond universiteit.
Dinsdag 21 december was Antal van den Bosch naar aanleiding van onderstaande column te gast bij het radioprogramma BNR Denktank. Luister hier het fragment terug.