Naar de content

Stammen op Twitter delen taalgebruik

Een diagram die woordgebruik verschillen tussen verschillende groepen mensen laat zien
Een diagram die woordgebruik verschillen tussen verschillende groepen mensen laat zien
John Bryden, Sebastian Funk & Vincent Jansen

Op basis van hun taalgebruik kun je twitteraars onderbrengen in groepen met dezelfde etniciteit, politieke voorkeur of hobby’s. Onderzoekers van de Universiteit van Princeton (VS) en Londen analyseerden tweets van 250.000 twitteraars. De uitkomsten staan te lezen in het tijdschrift EPJ Data Science. Niet eerder werden netwerk en taalgebruik van zoveel mensen in één onderzoek onder de loep genomen.

Haha #vetcool wij zijn gangsterssss. Ik heb gewoon #vetcool een broodje opgewarmd. Ik ben #vetcool aan het dansen.

Mensen die intensief met elkaar optrekken, kopiëren (spiegelen) elkaars gedrag. Soms gebeurt dat heel bewust, als je wilt benadrukken dat je bij een bepaalde groep hoort. Maar soms gaat het kopiëren van je gesprekspartner ook onbewust. Je staat bijvoorbeeld al een poosje met iemand te praten en ontdekt opeens dat jullie allebei de armen over elkaar geslagen hebben.

Zo gaat dat ook met taal. Als je woorden (of klanken, of zinsconstructies) maar vaak genoeg hoort uit de mond van mensen waarmee je je verbonden voelt, ga je ze vanzelf ook gebruiken. Zo komt het dat je sociale netwerk, het kringetje mensen waarin je dagelijks verkeert, een grote invloed heeft op je taalgebruik.En dat is de reden dat sociolinguïsten, taalkundigen die de sociale kant van taal bestuderen, geïnteresseerd zijn in sociale netwerken. Taalkundigen bestuderen sociale netwerken in uiteenlopende gemeenschappen: scholen, dorpen, wijken en steden.

Het is tijdrovend onderzoek, want om de netwerkstructuren te ontdekken – wie is bevriend met wie – moet je als onderzoeker eerst integreren in een gemeenschap. Inmiddels vormen internetcommunities een ideale bron van onderzoek. Het voordeel: je hoeft er de deur niet voor uit en je hoeft zelf niet eens te netwerken. Bovendien kun je op internet veel grotere groepen mensen onderzoeken.

Woordfrequenties

De eerste onderzoeker die nu zo’n grootschalig onderzoek heeft opgezet om taal en netwerk te onderzoeken, is overigens geen taalkundige maar een bioloog. John Bryden van de Universiteit van Londen bestudeerde met twee collega’s het woordgebruik van zo’n 250.000 twitteraars. De netwerken van deze twitteraars konden de onderzoekers reconstrueren door te kijken welke twitteraars op elkaar reageerden. Alleen wanneer de interactie wederzijds was werden de twitteraars tot hetzelfde netwerk gerekend.

Vervolgens werd met behulp van statistiek gekeken in hoeverre deze groepen dezelfde woorden gebruikten. De netwerken werden gekarakteriseerd aan de hand van woorden die veel gebruikt werden door de leden van het netwerk. Vervolgens konden de onderzoekers op basis van woordfrequenties van individuele twitteraars voorspellen tot welk netwerk ze behoorden. Op basis van 1000 woorden, kon 72 procent van de twitteraars gekoppeld worden aan het juiste netwerk.

Stammen

De onderzoekers noemen de gemeenschappen op Twitter ‘stammen’. Waarschijnlijk omdat het om groepen van enkele duizenden mensen gaat die onderling relatief weinig sociale verschillen laten zien. Ze zijn er in allerlei soorten en maten: fans van New Kids on the Block, twitteraars uit Singapore, fans van vampierenfilms, christelijke twitteraars, sportfans. Nu zou je kunnen zeggen dat deze communities op Twitter dezelfde woorden gebruiken omdat ze over een beperkt aantal onderwerpen communiceren. Het is niet heel verbazingwekkend dat het meest gebruikte woord onder christelijke twitteraars pastors is, en onder Afro-Amerikanen nigga.

In dit onderzoek werd echter ook gekeken naar gemeenschappelijke kenmerken van woorden, zoals verkort woordeinde (chillin voor chilling) of verlengd woordeinde (pleasee voor please), afkortingen (WTF) en zogenaamde blends waarbij delen van verschillende woorden in elkaar worden geschoven (zoals edublogs voor educatieve weblogs). En ook op dit soort woordkenmerken waren de communities van elkaar te onderscheiden. Het verkorte woordeinde (chillin) werd bijvoorbeeld veel gebruikt door Afro-Amerikanen. Het verlengde woordeinde (pleasee) was vooral te vinden bij fans van Justin Bieber.

Deze woordkenmerken laten ook zien dat taal op Twitter veel weg heeft van gesproken taal, en daardoor ook interessant is voor sociolinguïsten. Maar voor sommige onderzoeksvragen zullen ze nog steeds de straat op moeten: uiterlijke kenmerken als kleding blijven onzichtbaar op Twitter, net als onbewuste uitspraakeigenaardigheden.

Bron:

John Bryden, Sebastian Funk & Vincent Jansen 2013: Word usage mirrors community structure in the online social network Twitter in EPJ Data Science.