Je leest:

Student brengt Chinese taalvariatie in beeld

Student brengt Chinese taalvariatie in beeld

Auteur: | 13 juni 2012

Toen Daan van Esch, masterstudent Chinese Studies aan de Universiteit Leiden, afgelopen zomer door China reisde, merkte hij dat hij lang niet overal begreep waar de inwoners van de verschillende dorpen en steden het over hadden. De verschillen binnen de taal bleken enorm. Hij besloot deze talige diversiteit in kaart te brengen.

Twittercorpus

“Natuurlijk had ik wel gelezen dat ze in elk dorpje anders praten, maar tijdens die reis merkte ik het pas echt”, vertelt Van Esch. “In de Verenigde staten bestaat er een Twittercorpus waar dialectwoorden en hun plaats van herkomst in zijn opgenomen. Toen dacht ik: dat kan ik ook!” Dat is het Leiden Weibo Corpus geworden. Weibo is de Chinese variant van Twitter waar ruim 300 miljoen Chinezen een account hebben. Een corpus is een grote verzameling taalmateriaal die zo gestructureerd is dat de gebruiker er makkelijk in kan zoeken.

Weibo is de Chinese variant van Twitter waar ruim 300 miljoen Chinezen een account hebben.
Trowbridge Estate

Vijf miljoen berichten

Van Esch had graag de verschillen tussen de Chinese dorpen in kaart gebracht maar zo’n project is tijdrovend en vereist veel veldwerk. In plaats daarvan heeft hij ruim vijf miljoen berichten gedownload van Weibo. Omdat de berichten ook informatie bevatten over de plek waar het bericht is geüpload, is het mogelijk te zien welke woorden waar in China voorkomen.

Cloud

De software waarmee de berichten worden geanalyseerd, heeft Van Esch zelf geschreven. Hoe dat moest, heeft hij zichzelf aangeleerd. Toen de software eenmaal klaar was, duurde de analyse van de miljoenen berichten slechts twaalf uur. Dat was mogelijk doordat hij voor bepaalde tijd via de cloud, een manier om via internet met andere computers te verbinden, ruimte op een supersnelle server kon huren. Een investering die hem niet meer heeft gekost dan 8 dollar en 21 cent, maar veel tijd heeft opgeleverd. De software herkent de grammaticale patronen in het Chinees en geeft op een kaart aan waar het bericht geplaatst is.

Sneeuw, liefde en niet kunnen slapen

Van Esch vindt het opvallend dat er vanuit de media veel aandacht is voor politieke berichten op sociale media, zoals Twitter en Weibo, terwijl de meeste berichten over het dagelijks leven gaan. Zo berichtten veel Chinezen over bijvoorbeeld sneeuw (de berichten zijn verzameld in januari toen er inderdaad een grote sneeuwstorm was), liefde en over het feit dat ze niet kunnen slapen.

Kaart van de Weibo Corpus. De puntjes zijn plaatsen waar de berichten met het woord ‘sleutel’ zijn geplaatst.
Universiteit Leiden

Tweeduizend bezoekers

Zijn corpus is al in gebruik door medestudenten en door onderzoekers bij een NWO-onderzoeksproject van het Leiden University Centre for Linguistics. Na een e-mail naar verschillende media had de website bovendien binnen een maand tweeduizend bezoekers.

En nu promoveren?

Van Esch weet nog niet goed wat hij na zijn master wil gaan doen. Hij heeft zijn scriptie net ingeleverd en wacht op de beoordeling. “Ik zou hier wel graag mee verder willen en promoveren, waar en hoe weet ik nog niet. Eerst vakantie houden!”

Dit artikel is een publicatie van Universiteit Leiden.
© Universiteit Leiden, alle rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 13 juni 2012
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.