Twittercorpus
“Natuurlijk had ik wel gelezen dat ze in elk dorpje anders praten, maar tijdens die reis merkte ik het pas echt”, vertelt Van Esch. “In de Verenigde staten bestaat er een Twittercorpus waar dialectwoorden en hun plaats van herkomst in zijn opgenomen. Toen dacht ik: dat kan ik ook!” Dat is het Leiden Weibo Corpus geworden. Weibo is de Chinese variant van Twitter waar ruim 300 miljoen Chinezen een account hebben. Een corpus is een grote verzameling taalmateriaal die zo gestructureerd is dat de gebruiker er makkelijk in kan zoeken.

Vijf miljoen berichten
Van Esch had graag de verschillen tussen de Chinese dorpen in kaart gebracht maar zo’n project is tijdrovend en vereist veel veldwerk. In plaats daarvan heeft hij ruim vijf miljoen berichten gedownload van Weibo. Omdat de berichten ook informatie bevatten over de plek waar het bericht is geüpload, is het mogelijk te zien welke woorden waar in China voorkomen.
Cloud
De software waarmee de berichten worden geanalyseerd, heeft Van Esch zelf geschreven. Hoe dat moest, heeft hij zichzelf aangeleerd. Toen de software eenmaal klaar was, duurde de analyse van de miljoenen berichten slechts twaalf uur. Dat was mogelijk doordat hij voor bepaalde tijd via de cloud, een manier om via internet met andere computers te verbinden, ruimte op een supersnelle server kon huren. Een investering die hem niet meer heeft gekost dan 8 dollar en 21 cent, maar veel tijd heeft opgeleverd. De software herkent de grammaticale patronen in het Chinees en geeft op een kaart aan waar het bericht geplaatst is.
Sneeuw, liefde en niet kunnen slapen
Van Esch vindt het opvallend dat er vanuit de media veel aandacht is voor politieke berichten op sociale media, zoals Twitter en Weibo, terwijl de meeste berichten over het dagelijks leven gaan. Zo berichtten veel Chinezen over bijvoorbeeld sneeuw (de berichten zijn verzameld in januari toen er inderdaad een grote sneeuwstorm was), liefde en over het feit dat ze niet kunnen slapen.

Tweeduizend bezoekers
Zijn corpus is al in gebruik door medestudenten en door onderzoekers bij een NWO-onderzoeksproject van het Leiden University Centre for Linguistics. Na een e-mail naar verschillende media had de website bovendien binnen een maand tweeduizend bezoekers.
En nu promoveren?
Van Esch weet nog niet goed wat hij na zijn master wil gaan doen. Hij heeft zijn scriptie net ingeleverd en wacht op de beoordeling. “Ik zou hier wel graag mee verder willen en promoveren, waar en hoe weet ik nog niet. Eerst vakantie houden!”