Je leest:

Computer speurt naar fictie

Computer speurt naar fictie

Taal- en literatuuronderzoek in het digitale tijdperk

Auteur: | 12 augustus 2011

De taal in hedendaagse romans staat dicht bij de spreektaal. Toch vind je in fictie een ander woordgebruik dan in non-fictie. Uitvoerige analyses van digitale corpora onthullen dat veel fictieschrijvers dezelfde soort woorden gebruiken. Toch zijn we ons hier als lezer maar zelden bewust van. Maar ook originaliteit kan ontdekt worden door de computer. Dit is de verdienste van de Digital Humanities: een tak van wetenschap die momenteel sterk in opmars is.

Binnen de Digital Humanities worden enorme hoeveelheden tekst in de computer gestopt – gedigitaliseerd – om allerlei soorten onderzoek mee te kunnen doen. Het betreft uitsluitend onderzoek in geesteswetenschappelijke disciplines zoals taal- en letterkunde, geschiedenis, filosofie, muziekwetenschap, cultuurwetenschappen, kunstgeschiedenis en theologie.

De Amerikaanse literatuurwetenschapper Bridgman beschreef de taal in romans vanaf de 20e eeuw als de vox populi, de stem van het volk.

Dat de taal in romans vóór die tijd veel plechtiger was, is een ding dat zeker is. Maar komt de taal in fictie (zoals romans) echt zo sterk overeen met ons alledaagse taalgebruik? Of zijn er ook verschillen? En hoe kun je fictie onderscheiden van non-fictie, zoals kranten en academische teksten? Met dit soort vragen kunnen we ons wenden tot een nieuwe tak van wetenschap: de Digital Humanities.

Om ze te beantwoorden kun je allerlei soorten online tekstcorpora raadplegen. Een voorbeeld is het corpus van Hedendaags Amerikaans Engels (Corpus of Contemporary American English, afgekort COCA), dat 425 miljoen woorden bevat uit teksten die de afgelopen 20 jaar gepubliceerd zijn. Het gaat om teksten uit romans, tijdschriften, kranten, academische teksten en transcripties van gesproken Engels. Door teksten uit verschillende genres met elkaar te vergelijken, kun je onder andere ontdekken hoe ‘genrespecifiek’ het taalgebruik is. Zo kun je even in de huid kruipen van een onderzoeker.

Foefjes van schrijvers

Het COCA kun je aan allerlei taalkundige vragen onderwerpen. Je kunt bijvoorbeeld zoeken op werkwoorden in de verleden tijd. Dat kan omdat elk woord in het corpus gelabeld is. Zo heeft de veelvoorkomende werkwoordsvorm zei als kenmerken meegekregen: ‘werkwoord’ en ‘verleden tijd’. Het is niet verwonderlijk dat je dit woord in allerlei soorten tekst veelvuldig tegenkomt.

COCA kan ook tekstbestanden met elkaar vergelijken. Je kunt vragen welke verleden tijdsvormen veel voorkomen in fictie in vergelijking met academisch proza. Je krijgt dan werkwoorden op je beeldscherm als ‘grimaced’ (grijnsde), ‘scowled’ (fronste) en ‘grunted’ (knorde). Het zijn opvallend veel woorden die verwijzen naar gelaatsuitdrukkingen en geluiden. Het gebruik van dit soort werkwoorden is een eenvoudig foefje van romanschrijvers: op deze manier kunnen ze romanpersonages emotioneel laten reageren en tot leven brengen.

Behalve op individuele woorden, kun je ook zoeken naar veelvoorkomende combinaties van woorden. Zo maakte lexicoloog Orin Hargraves in een column in 2008 melding van het werkwoord to brush (borstelen) in het Oxford English Corpus. Wat hem opviel aan dat werkwoord was dat het normaal gesproken alleen voorkomt in combinatie met de woorden ‘hair’ (haar) en ‘teeth’ (tanden). In fictie komt het ook opvallend vaak voor in combinatie met een van de volgende woorden: ‘strand’ (haarstreng), ‘lock’ (haarlok) en ‘lip’ (lip). In het Engels kun je de zin ‘hij kuste haar’ ook vertalen met ‘he brushed her lips with his’. De reden dat je deze combinaties alleen tegenkomt in fictie, verklaart Hargraves als volgt: romanpersonages moeten altijd iets aan het doen zijn, anders komt het verhaal niet tot leven. Als de schrijver niets beters weet de bedenken, laat hij de personages met hun haar spelen…

Originaliteit

Het voorafgaande laat zien dat romanschrijvers regelmatig in clichés vervallen. Kijk maar eens naar deze zinnen: ‘Hij haalde nog eens diep adem’ en ‘Hij trok zijn wenkbrauwen op’. In non-fictie zul je ze niet snel aantreffen. Toch zullen dergelijke clichés de lezer maar zelden echt opvallen. Met de moderne computertechnieken kunnen ze aan de oppervlakte komen. Zo komt de voorbeeldzin met de opgetrokken wenkbrauwen in de debuutroman ‘Het Juvenalis Dilemma’ van Dan Brown maar liefst 14 keer voor.

Hetzelfde geldt overigens voor het tegenovergestelde: het doorzoeken van digitale corpora kan ook de originaliteit van een schrijver aantonen. Iets dergelijks deed Masahiro Hori, hoogleraar Engelse taalkunde aan de Kumamoto Gakuen Universiteit in Japan. Hij gebruikte het Dickens Corpus om aan te tonen hoe Charles Dickens een eigen draai gaf aan bestaande woordcombinaties. Zo kun je ‘een dodelijke blik werpen op’ in het Engels vertalen met ’to look daggers (dolken) at someone’. Dickens maakte ervan: ’An old lady looked carving-knives (vleesmessen) at the hardheaded delinquent (misdadiger)’. (In: The Pickwick Papers)

Intertekstualiteit

De techniek maakt het de nieuwste generatie onderzoekers ook een stuk makkelijker wanneer zij op zoek zijn naar intertekstualiteit. Iets dergelijks doet David Bamman, projectleider van een corpus met Klassieke Latijnse en Griekse teksten. Daarin vind je bijvoorbeeld de Ilias en de Odyssee van Homerus en de Aeneis van Vergilius. Elk woord in het corpus is voorzien van taalkundige informatie op woord- en zinsniveau.

Bamman toont aan dat bepaalde constructies uniek zijn voor de klassieke teksten. Vervolgens laat hij zien dat latere schrijvers zich hierdoor lieten beïnvloeden, zoals de 17e-eeuwse John Milton. De volgende zin uit Paradise Lost laat een vrij ongebruikelijke volgorde zien: ‘Of man’s disobedience, and the fruit of that forbidden tree… sing, heavenly muse’. Iets vergelijkbaars komen we tegen bij Vergilius: ‘arma virumque cano’ (over wapenfeiten en een man zing ik, in plaats van: ik zing over wapenfeiten en een man). Een zin die overigens op zijn beurt weer te herleiden is tot één van Homerus.

Al met al laten de voorbeelden zien dat de computationele analyses ons veel nieuwe inzichten opleveren. De computer neemt wetenschappers zo een hoop werk uit handen. Letterkundigen hebben hiermee een machtig middel om fictie en non-fictie te scheiden. En om clichématige versus originele romanteksten op te sporen. Zouden met deze nieuwe technieken in het vervolg alle clichéschrijvers door de mand gaan vallen?

Bronnen:

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/taaltechnologie.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 12 augustus 2011
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.