Online data als bron voor de taalonderzoeker

Een groot deel van onze communicatie speelt zich online af. Dat betekent dat er online ook grote hoeveelheden data te vinden zijn die interessant zijn voor geesteswetenschappelijk onderzoek. Dong Nguyen ontwikkelde computerprogramma Tweetgenie en onderzocht aan de Universiteit Twente hoe onderzoekers van talige en culturele variatie gebruik kunnen maken van grote digitale databestanden en computationele methoden.

10 maart 2017

Een paar jaar geleden was Tweetgenie volop in het nieuws: een computerprogramma dat aan de hand van het taalgebruik van een Twitteraccount voorspellingen doet over leeftijd en geslacht van de twitteraar. Volgens Tweetgenie gaat achter NEMO Kennislink bijvoorbeeld een man schuil van circa 41 jaar oud: geen slechte schatting, want de eindredacteur die verantwoordelijk is voor het Twitteraccount voldoet aan die beschrijving.

Dong Nguyen ontwikkelde Tweetgenie als onderdeel van haar promotieonderzoek. De manier waarop Tweetgenie werkt, is illustratief voor de manier waarop je taalkundig onderzoek kunt doen met de computer. Je selecteert een aantal Twitteraccounts waarbij de leeftijd en het geslacht van de gebruiker zichtbaar zijn. De tweets van die accounts laat je inlezen door de computer. Deze haalt vervolgens allerlei patronen uit de data (zoals: mannen van 41 gebruiken vaak het woord ‘gaaf’). Op basis daarvan kun je een model ontwikkelen om voorspellingen te doen over nieuwe data.

Data van duizenden mensen

Nguyen is van huis uit informaticus. Voor haar promotieonderzoek werkte ze – behalve met andere informatici – ook samen met taalkundigen, etnologen en sociologen. De promovendus wilde weten hoe je computationele methoden kunt inzetten voor hun type onderzoek. En hoe je door inzichten uit andere vakgebieden, bestaande methoden binnen de informatica kunt verbeteren.

Big data: een gigantische gegevensbrij waar slimme software chocola van maakt.
Wikimedia commons

Dat big data ook in de geesteswetenschappen een grote rol gaan spelen, weet Nguyen wel zeker: “Ik denk dat deze vakgebieden heel erg gaan veranderen. Het zou ook raar zijn om al die online data níet te gebruiken. Als de methoden duidelijk voordelen bieden, zullen onderzoekers er uiteindelijk in meegaan. Dat wil helemaal niet zeggen dat bestaande methoden zullen verdwijnen, maar dat computationele methoden erbij komen. Die twee kunnen elkaar juist versterken.”

Dat de techniek voordelen biedt, bijvoorbeeld voor taalkundigen, is snel uitgelegd: “In traditioneel dialectonderzoek is een van de bekendste methoden het versturen van vragenlijsten. Maar dat kost redelijk wat tijd. Nu kun je op een snelle manier data van duizenden mensen verzamelen en analyseren hoe mensen in verschillende regio’s schrijven.”

Nieuwe blik op oude data

Het is ook mogelijk om de al verzamelde data met nieuwe statistische methoden opnieuw onder de loep te nemen, legt Nguyen uit. “Taalkundigen gebruiken bijvoorbeeld dialectkaarten. Tot voor kort keken ze dan handmatig naar zulke kaarten om er interessante patronen in te ontdekken. Maar daarbij maken ze menselijke fouten, want soms berust een patroon dat je ziet gewoon op toeval. De computer kan je vertellen hoe groot de kans is dat het patroon het gevolg is van toeval.”

Met Twitter is het bovendien mogelijk om tienduizenden dialectkaarten te maken. Voor mensen is het eigenlijk onmogelijk om in zo’n grote hoeveelheid kaarten patronen te zien. Ook daarvoor biedt een statistisch model uitkomst, stelt de onderzoeker. En ook niet onbelangrijk, zo’n model zorgt ervoor dat je onderzoek makkelijk kunt reproduceren.

Uitspraakvariatie op YouTube

Een medium als Twitter leent zich ook nog eens uitstekend voor onderzoek naar sociale variatie in taal. Die tak van de taalkunde staat bekend als de sociolinguïstiek. Het al genoemde Tweetgenie is een goed voorbeeld, want daarin kijk je naar de relatie tussen taalgebruik en sociale variabelen als leeftijd en geslacht. “Sociolinguïstiek bestaat wel al veel langer”, vertelt Nguyen, “maar het gebruik van computationele methoden is vrij nieuw.”

We zitten echt nog aan het begin van dit onderzoeksgebied, vindt Nguyen. “Veel onderzoek richt zich op één specifiek platform. Maar eigenlijk wil je meer platformen kunnen meenemen. Wij kijken naar Twitter, maar ook online fora of blogs en zelfs naar Instagram. En je kunt ook denken aan Youtube-video’s. Je ziet juist dat video en spraak steeds belangrijker worden online. Dat is interessant voor de sociolinguïstiek, want juist in de uitspraak vind je veel variatie.”

Praten met de computer

In een van haar experimenten keek Nguyen ook naar het gebruik van Limburgs en Fries op Twitter. “We wilden verder weten wanneer mensen in de minderheidstaal twitteren en wanneer ze overschakelen op het Nederlands. Over het algemeen twitteren mensen vooral in het Nederlands. Maar als ze op elkaar reageren, stappen ze soms over op de minderheidstaal. Als die switch naar de minderheidstaal eenmaal gemaakt is, is het heel ongebruikelijk om terug te schakelen.”

Dat inzicht helpt bij het verbeteren van dialoogsystemen, vertelt de promovendus. “Microsoft is daar bijvoorbeeld mee bezig. Je hebt vaak dialoogsystemen die ervan uitgaan dat de computer met de gebruiker in één taal praat of schrijft. Maar als je begrijpt wanneer mensen overschakelen op een andere taal, kun je dat soort systemen ook wat menselijker maken.”

Vooroordelen versterken

Zijn er eigenlijk ook nadelen aan dit soort computationeel onderzoek? Ja, die zijn er zeker ook, volgens Nguyen. “Sommige leeftijdsgroepen zijn ondervertegenwoordigd op een medium als Twitter. Of je mist informatie, bijvoorbeeld over de opleiding van je proefpersonen. Tot slot kun je in online data vaak wel makkelijk zeggen dat er een relatie is tussen a en b, maar het is een stuk moeilijker om het causale verband vast te stellen.”

In haar proefschrift *Text as social and cultural data* verkent Dong Nguyen de mogelijkheden van onderzoek met big data voor de geesteswetenschappen.
Dong Nguyen

En dan zijn er nog de ethische aspecten. Niet alleen de vraag of je zomaar alle online data mag gebruiken, maar ook de subjectiviteit van die data. “Binnen de informatica werken we vaak met zelflerende systemen. Deze systemen leren aan de hand van grote hoeveelheden data. Maar vaak zitten bepaalde vooroordelen die aanwezig zijn in de offline wereld daardoor ook in de data waarop een systeem ontwikkeld is. Zo zijn er meerdere onderzoeken geweest waaruit bleek dat vrouwen als ze op internet surfen vacatures zien voor lager betaalde functies dan mannen. De computer gaat dus bepaalde vooroordelen versterken.”

Maar het grootste nadeel is misschien wel dat de computationele methoden nu vaak zo complex zijn, dat veel onderzoekers er niet mee kunnen werken. Daar is dus werk aan de winkel, stelt Nguyen. “Als je deze methoden gebruikt als onderzoeker, wil je vaak weten waarom de computer een bepaalde beslissing maakt. Dan begrijp je ook beter wanneer en waarom de computer een fout maakt. De mensen die de systemen maken zouden meer oog moeten hebben voor de begrijpelijkheid voor de gebruiker. Dat kan ook de angst wegnemen bij de gebruiker. Sommige taalkundigen denken dat informatici hun vakgebied willen veroveren, maar dat is helemaal niet het geval. Ik zie het meer als een verrijking.”

Bron:

Dong Nguyen: Thesis Text as social and cultural data. De promotie vindt plaats op 10 maart 2017 aan de Universiteit Twente.

Reageer