Janna de Boer legt uit hoeveel tekst er wordt geproduceerd sinds 2013

In de Amsterdam Arena wordt meestal hard gevochten om balbezit door voetballers. Maar je kunt er ook terecht voor inspirerende congressen, ontdekte ik toen ik daar voor het eerst van mijn leven was.

30 oktober 2017

Het congres in kwestie ging over technologie in de wetenschap. De dag begon met een verrassende wetenswaardigheid : elke dag opnieuw produceren we met z’n allen meer tekst dan in de hele wereld is geproduceerd tot 2013. Dat klinkt als veel. Heel veel.

Janna tijdens de conferentie in de Amsterdam Arena
Janna de Boer voor NEMO Kennislink

Enorme bibliotheek

Laten we eens proberen grip te krijgen op hoeveel dat is. Stel je de grootste bibliotheek voor waar je ooit bent geweest. Voor mij is dat bijvoorbeeld de New York Public Library, die zo’n 53.000.000 items in haar collectie heeft. Stel je dan voor dat elke grote stad zo’n grote bibliotheek heeft.

Probeer nu voor je te zien hoe een bibliotheek eruit ziet waar al die bibliotheken ter wereld in passen. Natuurlijk moeten we dan wat dubbele boeken weghalen voor de landen die dezelfde taal spreken, maar we mogen alle brieven, post-its, kaartjes, sms’jes en e-mails tot 2013 erbij optellen. Zie je het voor je? Die hoeveelheid tekst wordt nu dus elke dag geproduceerd.

Samen met de rest van de wereld produceren we dus dagelijks meer tekst – onder andere in de vorm van appjes, berichten op social media, teksten op websites, aantekeningen en zakelijke correspondentie – dan er ooit in de literatuur is geschreven.

Dit is nou Big Data. Een hip concept in de moderne wetenschap. Iedereen wil het gebruiken, maar niemand kan het goed definiëren. Het wordt wel omschreven als ‘meer data (gegevens) dan je kunt bevatten’, of als ‘meer gegevens dan op één supercomputer passen’.

Voor onderzoekers is die hoeveelheid tekst een geweldige bron van informatie. Nog nooit eerder hadden we de kans om zo veel ‘natuurlijke’ taal te analyseren en nog nooit eerder hadden we zo veel verschillende bronnen van taal. Vroeger kon je geschreven taal analyseren door kranten, tijdschriften of literatuur te onderzoeken. Maar dat zijn heel specifieke categorieën van taal; de taal in een krant is heel anders dan de appjes die je naar je vrienden stuurt. Daarom is dit tijdperk zo fantastisch voor taalonderzoek; de verschillende media waarop taal wordt geproduceerd zijn enorm gevarieerd en bieden dus ontelbaar veel kansen voor taalwetenschappelijk onderzoek!

De New York Public Library. — De *New York Public Library*.
Draelab via Flickr CC BY-NC 2.0

Waardevolle gegevens

Voor mijn eigen onderzoek zijn dit soort gegevens ook enorm waardevol. Met zo veel voorbeelden van gezond, normaal taalgebruik wordt het namelijk makkelijker om het afwijkende te herkennen. Hoe vaker je een witte zwaan hebt gezien, des te eenvoudiger is het om te herkennen dat een zwarte zwaan afwijkt van het normale. Zo is het ook voor taalgebruik van patiënten. Hoe meer voorbeelden we hebben van ‘gezond’ taalgebruik, des te makkelijker wordt het om afwijkend taalgebruik van patiënten te herkennen.

Maar goed, makkelijker gezegd dan gedaan. Want hoe moet je die enorme hoeveelheid taal gaan analyseren als die niet eens op een computer past? Hopelijk hebben we na dit inspirerende congres genoeg ammunitie om die breinpuzzel te kunnen kraken!