Computer voorspelt leeftijd en geslacht twitteraar

Het computerprogramma TweetGenie raadt leeftijd en geslacht van Nederlandse twitteraars aan de hand van hun taalgebruik. TweetGenie is ontwikkeld door onderzoekers van de Universiteit Twente en het Meertens Instituut. In 85 procent van de gevallen raadt de computer het geslacht van twitteraars correct; bij de schatting van leeftijd zit hij er gemiddeld minder dan vier jaar naast. Hiermee is de inschatting van de computer nauwkeuriger dan die van mensen.

16 mei 2013

Ieder mens heeft verschillende identiteiten, afhankelijk van de context
Flickr, Marco Derksen via CC BY 2.0

Taalgebruik onthult veel over iemands identiteit. Door sociolinguïsten is al veel onderzoek gedaan naar taalverschillen tussen mannen en vrouwen en mensen van verschillende leeftijden. Uit al die studies blijkt vooral dat het lastig is om generalisaties te maken. Ieder mens heeft namelijk verschillende identiteiten, afhankelijk van de context: een ambtenaar in functie spreekt anders dan thuis op de bank; een Limburger spreekt in Limburg anders in dan in Amsterdam. Een jong iemand gedraagt zich soms oud; een man gedraagt zich soms vrouwelijk. Bovendien is de uiting van geslacht en leeftijd verschillend per cultuur.

Spontane spraak

Afhankelijk van de context maken we keuzes in ons taalgebruik. In formele situaties, zoals tijdens een vergadering, proberen we ons zo neutraal mogelijk uit te drukken. Maar in informele sfeer, met onze vrienden in de kroeg, willen we juist een eigen identiteit uitdrukken. Die spontane gesprekken van ‘vrienden onder elkaar’ zijn voor sociolinguïsten het interessants, omdat die veel sociale informatie bevatten.

Voorheen moesten taalkundigen vooral de straat op om spontane gesprekken op te nemen, tegenwoordig blijkt ook Twitter een goeie bron voor taalkundig onderzoek. Een voordeel is dat je grote hoeveelheden proefpersonen tot je beschikking hebt. Maar ook dat de context op Twitter gevarieerd is: twitteraars kunnen hun tweet richten aan één persoon, aan een groep of aan een groot publiek. Daardoor zijn ze een weerspiegeling van de taal die we op straat horen. En met zulke grote aantallen data kun je ook nog eens algemene patronen ontdekken.

Promovenda Dong Nguyen van de Universiteit Twente analyseerde het taalgebruik van 3185 Nederlandse twitteraccounts. Om alleen Nederlandse tweets te selecteren, zocht ze op tweets die het lidwoord het bevatten. In die enorme berg tweets zocht ze naar onderscheidende kenmerken voor geslacht en leeftijd. Op basis van de resultaten ontwikkelde Nguyen samen met haar onderzoeksteam (werkzaam aan de Universiteit Twente en het Meertens Instituut) het computerprogramma TweetGenie.

Ware leeftijd

Om te bepalen hoe nauwkeurig de schatting van de computer is, achterhaalde het onderzoeksteam van een groot aantal accounts de ware leeftijd en het ware geslacht. Deze konden vaak gevonden worden aan de hand van iemands profielbeschrijving, profielfoto of via LinkedIn. De computer bleek in 85 procent van de gevallen een goede schatting te maken van geslacht; bij de leeftijd zat hij er gemiddeld minder dan 4 jaar naast. Hiermee is de schatting van TweetGenie nauwkeurig dan die van mensen. Nguyen en haar collega’s lieten 17 proefpersonen de tweets van 20 verschillende Twitteraccounts lezen en vroegen om een inschatting van geslacht en leeftijd. Bij het schatten van de leeftijd scoorde de computer significant beter dan de mensen.

Maar hoe onderscheiden jonge en oude, mannelijke en vrouwelijke twitteraars zich nu? In leeftijd zijn er duidelijke verschillen aan te wijzen. Zo gebruiken jonge twitteraars meer eerste en tweede persoon enkelvoud (ik, jij) in hun tweets. Maar ook gebruiken zij meer hoofdletterwoorden als HAHA en LOL en verlenging van klinkers als in niiiice. Oudere mensen gebruiken over het algemeen complexere taal: langere tweets met langere woorden en meer voorzetsels. Maar ook meer links en hashtags. Blijkbaar hebben oudere twitteraars meer behoefte om informatie over te dragen, terwijl jongeren meer emoticons gebruiken. Overigens vinden we daarin ook een onderscheid tussen mannen en vrouwen. Mannen blijken vaker informatie te willen delen.

Meerdere identiteiten

Overigens was de leeftijd van vrouwen beter te voorspellen dan de leeftijd van mannen. Een mogelijke verklaring is volgens de onderzoekers dat het taalrepertoire van vrouwen gevarieerder is dan dat van mannen. Sterker dan mannen zouden vrouwen de behoefte hebben om hun identiteit uit te dragen door middel van hun taalgebruik. Ook voor de groep van dertigplussers waren leeftijd en geslacht moeilijker te voorspellen. Dat komt waarschijnlijk doordat mensen boven de dertig relatief minder taalverandering laten zien dan mensen onder de dertig.

Overigens laten twee voorbeelden in het artikel van de onderzoekers zien dat leeftijd soms heel moeilijk te schatten is. Zo wordt een 24-jarige student aangehaald die in zijn tweets veel dezelfde woorden gebruikt als een 17-jarige: _Ik,

, G :D, Hahahah, tmi_ en jij. Deze persoon heeft minder de behoefte zich te profileren als een volwassen twitteraar. Aan de andere kant is er een 19-jarige student die voornamelijk twittert over politiek. Hij gebruikt woorden als ministers, verkiezingen en kiezers: woorden die vaker voorkomen bij oudere twitteraars. Dit maakt nog eens duidelijk dat mensen niet altijd in een hokje te plaatsen zijn.

Bron: Dong Nguyen e.o. (2013): “How Old Do You Think I Am?”: A Study of Language and Age in Twitter.

Computer voorspelt leeftijd en geslacht twitteraar

Spontane spraak

Ware leeftijd

Meerdere identiteiten

Interview met de auteur van ‘Medusa in de spiegel’

Vijf vragen over de jetlag

Waarom je niet naar de 14-daagse weersverwachting moet kijken

Europ of Euronder: Casper de Vries

Wat betekent het om een proefschrift te schrijven?

Stadsdieren: de paling in het Oosterdok

Herken jij het middeleeuwse beest?

Stuur ons een reactie, vraag of suggestie