Je leest:

Je schrijfstijl als vingerafdruk

Je schrijfstijl als vingerafdruk

Auteur: | 23 september 2010

Iedereen heeft zijn eigen individuele schrijfstijl. Zelfs als je je best doet een andere stijl te kopiëren, is de kans groot dat je door de mand valt. Handig voor politie en rechters, al is de analyse lang niet altijd betrouwbaar.

Danielle Jones uit Essex was vijftien jaar oud toen ze plotseling verdween in juni 2001. Haar lichaam is nooit gevonden, maar haar oom -een bekende van de politie- werd opgepakt op verdenking van haar ontvoering en moord. Hij beweerde onschuldig te zijn; Danielle had immers na haar verdwijning nog sms’jes verstuurd vanaf haar mobieltje waaruit bleek dat alles in orde was. Een professor in forensische taalkunde onderzocht de sms’jes en de oom viel genadeloos door de mand. De sms’jes waren in hoofdletters getypt, iets wat Danielle nooit deed. Doorslaggevend was echter de spelling van het woordje ‘what’. Danielle typte altijd ‘wat’, maar in een van de sms’jes stond ‘wot’. Mede naar aanleiding van dit bewijs werd de oom schuldig bevonden.

Justitie

Stylometrie, de analyse van schrijfstijl, speelt regelmatig een rol bij de politie en opsporingsdiensten. Bijvoorbeeld bij het bepalen van de authenticiteit van een zelfmoordbrief of bij het toewijzen van een anonieme dreigbrief aan een bekende terrorist. Ook plagiaat -het onrechtmatig aan jezelf toeschrijven van andermans tekst- is eenvoudig te detecteren met stylometrie. Daarnaast kan de stijl van een programmeercode zelfs de ontwikkelaar van computervirussen verraden.

Maar lang niet alle toepassingen van stylometrie hoeven in de justitiële hoek gezocht te worden. Zo gebruiken literatuuronderzoekers de methode om vast te stellen wie de auteur is van een boek of toneelstuk. Anderen kijken naar de schrijfstijl van een auteur om meer over zijn karakter en achtergrond te weten te komen. Zonder dat je het in de gaten hebt, schemert in je schrijfstijl je geslacht, leeftijd, persoonlijkheid, regio of opleidingsniveau door.

Vervalsen

Onomstreden is stylometrie zeker niet. De uitkomsten hangen sterk af van de gekozen methode, dus de kans bestaat altijd dat een ‘bewezen’ auteur in werkelijkheid niks met een onderzochte tekst te maken heeft. Het is daarom altijd heel belangrijk om goed na te denken hoe je het beste te werk kunt gaan. Bij elke tekst kan dit weer anders zijn.

Vroeger vond de analyse nog handmatig plaats. De onderzoeker kijkt dan bijvoorbeeld naar het gebruikte papier en de inktsoort om iets over de achtergrond van de schrijver te weten te komen. Maar ook bepaalde woorden geven goede aanwijzingen. Sommige woorden zijn sterk tijdsgebonden —‘iPod’ kwam je tien jaar geleden nog nergens tegen. Van andere, zoals ‘mensch’, verraadt de spelling dat de tekst niet recent geschreven is. Ook de afkomst van een auteur schemert soms door in zijn schrijfstijl. Een Amerikaan schrijft bijvoorbeeld ‘color’ waar een Brit het over ‘colour’ heeft. Ten slotte kunnen spelfouten ook naar een bepaald individu wijzen —mits hij deze fout consistent maakt. In de praktijk ben je met deze methode erg afhankelijk van de specifieke woorden die in een tekst voorkomen. Zeker bij een korte tekst zul je weinig aanwijzingen vinden. Bovendien zijn al deze kenmerken makkelijk te vervalsen.

Met de compressiemethode hebben wetenschappers in 2002 de schrijver die schuilging achter het pseudoniem Marek van de Jagt ontmaskerd. Arnon Grunberg bleek, zo gaf hij later ook zelf toe, de auteur van onder andere ‘De geschiedenis van mijn kaalheid’ te zijn.

Compressie

Tegenwoordig helpt de computer meestal een handje bij de analyse van schrijfstijl. Zij kunnen sneller en makkelijker patronen in teksten herkennen dan mensen. Een bekende methode gebruikt compressie, waarbij een bestand zo klein mogelijk wordt gemaakt door aanwezige patronen slechts één keer op te slaan. Een bekend voorbeeld hiervan is WinZip, software die bestanden verkleint zodat je ze makkelijker digitaal kunt versturen. Elke schrijfstijl heeft zo zijn eigen terugkerende patronen. Welke dit zijn weten we niet precies, maar je kunt hierbij bijvoorbeeld denken aan woordvoorkeur, zinsbouwvoorkeur of voorkeur voor een bepaalde opmaak. Deze patronen zorgen ervoor dat twee teksten van dezelfde auteur samen verder zijn te comprimeren dan twee teksten van twee verschillende auteurs. Bij de eerste twee teksten komen immers dezelfde schrijfstijl-patronen voor.

Helemaal waterdicht is deze methode echter niet. De keuze voor de tekst die gecombineerd wordt met het onbekende stuk tekst is van grote invloed. Een tekst over hetzelfde onderwerp als de te analyseren tekst zal tot verdere compressie leiden dan een tekst die over iets compleet anders gaat. De kans is namelijk groot dat er dezelfde woorden, en dus patronen, in voorkomen. Daarnaast speelt ook de lijst potentiële auteurs een rol. Als er maar een beperkt aantal mogelijkheden is zal er geen probleem zijn. Maar als iedereen ‘verdacht’ is en je voert de compressie uit met maar tien potentiële schrijvers, zou net nummer elf wel eens de beste compressie op kunnen leveren.

Vingerafdruk

Een andere manier om de schrijfstijl van een auteur te bepalen is taalkundige analyse. In de loop der jaren zijn er meer dan duizend verschillende taalkundige kenmerken gevonden waarop schrijvers onderling van elkaar verschillen. Geen van deze kenmerken is op zichzelf goed genoeg om een besluit op te baseren, maar een combinatie van kenmerken kan wel een vrij betrouwbare vingerafdruk van de auteur opleveren. De kenmerken zijn in te delen in lexicale, syntactische en semantische eigenschappen. Daarnaast zijn er ook nog eigenschappen die afhankelijk zijn van het type tekst. Een mailtje heeft bijvoorbeeld altijd een header waarin informatie over de afzender staat. En in de eigenschappen van een word-document staat altijd wie de auteur is. Bovendien heeft een schrijver meestal een voorkeur voor een bepaald lettertype of een bepaalde opmaak.

Onder lexicale eigenschappen vallen alle kenmerken op woordniveau. Je kunt hierbij denken aan de gemiddelde woordlengte, een benadering van de woordenschat of hoe vaak verschillende woorden voorkomen in een tekst. Omdat het onderwerp nogal sterk bepaalt welke woorden er in een tekst voorkomen, kiezen onderzoekers er vaak voor om alleen de zogenaamde functiewoorden mee te nemen in hun analyse. Dit zijn woorden zonder echte inhoudelijke betekenis, zoals lidwoorden, voorzetsels en hulpwerkwoorden. Iedereen heeft onbewust een voorkeur voor bepaalde grammaticale constructies, met de daarbij behorende functiewoorden. Ongeacht het onderwerp van de tekst. Met het gebruik van functiewoorden laat je dus een gedeelte van je vingerafdruk achter.

‘Mama’ of ‘mam’

Syntactische eigenschappen hebben te maken met de grammatica en de zinsbouw. Sommige mensen maken meer gebruik van bijzinnen, anderen gebruiken opvallend veel bijvoeglijk naamwoorden. Speciale part-of-speech-taggers kunnen zinnen automatisch ontleden, zodat de computer kan zoeken naar patronen in de zinsbouw. Onbewust hebben schrijvers vaak voorkeuren voor bepaalde grammaticale constructies; ook daarin is een deel van de auteurs-vingerafdruk te vinden. Daarnaast maken sommige mensen telkens dezelfde grammaticale fouten. Deze komen met een syntactische analyse vanzelf naar boven.

Noem jij de vrouw die je op de wereld gezet heeft ‘ma’, ‘moeder’, ‘mam’, ‘mama’ of iets anders? Iedereen heeft zo zijn eigen voorkeur, en die voorkeur kan de identiteit van een anonieme schrijver best eens verraden.

Hoe dieper de taalkundige analyse gaat, hoe ingewikkelder het voor een computer wordt. Woorden tellen en zinnen ontleden kan een computer nog aardig goed, maar bij het bepalen van de betekenis van een zin gaat hij makkelijk de mist in. En dat is precies was de semantische analyse inhoudt. Meestal blijft deze analyse dan ook beperkt tot het onderzoeken van synoniemenparen. Woorden als ‘auto’ en ‘wagen’ betekenen hetzelfde, maar je zult zelf waarschijnlijk het ene ook vaker gebruiken dan het andere. Hetzelfde zie je bij woorden als ‘ma’, ‘mam’, ‘mama’ en zo nog een paar varianten. Je voorkeur voor een van deze woorden kan je in een schrijfstijl-analyse karakteriseren.

Betrouwbaarheid

Zoals je ziet zijn er een heleboel kenmerken die je in de analyse kunt meenemen. De keuze hieruit bepaalt in grote mate de uitkomst van de stylometrie. Een andere selectie kan zomaar een compleet andere ‘schuldige’ aanwijzen. Maar ook als de keuze voor de juiste stijlkenmerken helemaal betrouwbaar zou zijn, ben je er nog niet. Je hebt dan een duidelijke vingerafdruk van verschillende auteurs, maar hoe kun je die het beste vergelijken met de vingerafdruk van de anonieme tekst? Ook hier zijn verschillende methodes voor die afhankelijk van de situatie het meest geschikt kunnen zijn.

Zo kun je er bijvoorbeeld voor kiezen om alle teksten van een bepaalde schrijver op één grote hoop te vegen en die in één keer te analyseren. Maar je kunt ook elke tekst apart analyseren en ze individueel vergelijken met de onbekende tekst. Waarschijnlijk zal de uitkomst dan niet precies hetzelfde zijn. Daarnaast kun je proberen de vingerafdruk uit te drukken in getallen, die je dan op verschillende manieren met elkaar kunt vergelijken. Eén van de mogelijkheden is de weergave in een grafiek.

In bovenstaande grafiek zijn de resultaten van een schrijfstijlanalyse weergegeven. De onderzoeker heeft de boeken en brieven van de schrijfsters Jane Austen (JA), Fanny Burney (FB) en Maria Edgeworth (ME) met elkaar vergeleken. Hij keek hierbij naar het voorkomen van twee verschillende groepen woorden. Op basis van deze kenmerken blijken de drie schrijfsters goed van elkaar te onderscheiden.
Jane Austen Society of North America

Auteur m/v

Veel wetenschappers gebruiken machine learning bij hun stylometrie. Bij deze methode probeert de computer zelf regels af te leiden uit data, zodat hij in het vervolg nieuwe data op de juiste manier kan benaderen. In 2003 hebben onderzoekers op deze manier een programma ontwikkeld dat het geslacht van een auteur kan bepalen. Hun zelflerende systeem zocht in taalkundig geanalyseerde trainingsteksten een verband tussen de stijlkenmerken en de sekse van de auteur. Het systeem bleek vervolgens in 80% van de gevallen het geslacht juist te voorspellen.

Een rechter die een oordeel moet vellen op basis van stylometrie zal goed moeten kijken hoe het onderzoek is uitgevoerd en hoe betrouwbaar de uitkomst daarvan is. Over het algemeen kun je zeggen dat de betrouwbaarheid van een analyse toeneemt, naarmate er minder mogelijke schrijvers zijn en de teksten van de bekende en onbekende schrijvers langer zijn. Maar zolang wetenschappers de verschillen in schrijfstijl tussen auteurs niet precies kunnen verklaren, kunnen we er niet vanuit gaan dat de uitkomst altijd correct is. En blijft de kans bestaan dat een onschuldige schrijver schuldig wordt bevonden.

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/stylometrie.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 23 september 2010
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.