Naar de content

Zipf geeft inzicht in taal van afasiepatiënten

Pixabay CC0

In een geschreven tekst komen sommige woorden vaak voor en andere weinig. Uit onderzoek blijkt dat woordfrequenties altijd eenzelfde patroon volgen. Dat staat bekend als de Wet van Zipf. Marjolein van Egmond onderzocht in haar proefschrift of dit patroon ook opgaat voor gesproken tekst en voor afasiepatiënten met woordvindingsproblemen.

Het is een verschijnsel waar al veel taalkundigen zich over hebben gebogen: het meest voorkomende woord in een tekst, komt twee keer zo vaak voor als het op één na meest voorkomende woord, en drie keer zo vaak als het derde meest voorkomende woord et cetera. Dit verschijnsel staat bekend als de Wet van Zipf. De Amerikaanse taalkundige George Kingsley Zipf (1902-1950) formuleerde deze wetmatigheid nadat hij woordfrequenties in verschillende teksten had onderzocht.

Overigens was de formule ook al bij enkele van zijn voorgangers opgedoken, maar Zipf was wel de eerste die er een verklaring voor gaf. De wet vatte volgens hem de belangen van sprekers en luisteraars samen: sprekers willen zo min mogelijk verschillende woorden uit hun geheugen ophalen, en luisteraars willen juist zoveel mogelijk verschillende woorden horen, zodat ze precies weten wat de spreker bedoelt. Deze verklaring wordt ook wel die van de ‘minste weerstand’ genoemd.

Een aap op een toetsenbord

“Maar hij deed zijn onderzoek honderd jaar geleden, zónder computers”, zegt Van Egmond, die in haar proefschrift de verschillende verklaringen in kaart bracht die na Zipf gegeven werden. “Zipf kon zijn theorie niet goed onderbouwen, en dat was ook het voornaamste kritiekpunt: er kwam al gauw een tegenbeweging die stelde dat het alleen een statistische wetmatigheid is, zonder inhoud. Als je een aap op een toetsenbord laat rammen, krijg je hetzelfde resultaat, zei psycholoog George Miller. Hij baseerde zich op een theorie van de wiskundige Benoit Mendelbrot.”

‘Als jeen een aap op een toetsenbord laat rammen, krijg je hetzelfde resultaat’, zei George A. Miller over de Wet van Zipf.

Publiek domein

Met de komst van de computer kon opeens kwantitatief onderzoek gedaan worden naar woordfrequentie. Door dit onderzoek werd de theorie van Zipf toch nieuw leven ingeblazen, omdat nu met echte data aangetoond kon worden dat teksten zonder uitzondering aan dit patroon voldoen. Tegelijkertijd is er nu vanuit de neurologische hoek een groeiende groep die de wet verklaart op basis van de netwerkstructuur in onze hersenen, vertelt de promovenda.

“Dat is de stroming die ik het meest waarschijnlijk vind. Als een netwerk op een bepaalde manier gegroeid is, dan zie je dat het aantal verbindingen in dat netwerk al de Wet van Zipf volgt. Ons interne lexicon, of interne woordenboek, lijkt te zijn opgebouwd als zo’n netwerk: een aantal knopen heeft heel veel verbindingen met andere woorden, maar de meeste hebben maar een of twee verbindingen. Net als de woordstructuur die je in teksten tegenkomt.”

Verankerd in het lexicon

Direct bewijs is er niet voor deze theorie, geeft Van Egmond toe: “Je kunt niet iemands hoofd opensnijden om te zien hoe het zit. Dat maakt het zo moeilijk om hier een definitief antwoord op te geven. Wat vakgenoten hebben laten zien is dat je op basis van groeimodellen in ieder geval ziet dat het een plausibel verhaal is. We weten dat er in de hersenen netwerken met deze structuren te vinden zijn. Maar of het een-op-een te relateren is aan het lexicon, dat is niet bekend.”

Wat de theorie aannemelijk maakt, is het zogenaamde Age of Acquisition-effect, dat in meerdere studies is aangetoond: de leeftijd waarop je een woord leert, is van invloed op de verwerking in de hersenen. Hoe eerder je een woord hebt geleerd, des te makkelijker je het woord op latere leeftijd uit je geheugen ophaalt. Het netwerkmodel verklaart dit als volgt: de woorden die je als kind als eerste leert, krijgen de meeste netwerkvertakkingen naar andere woorden. Ze zijn daardoor makkelijker op te halen dan woorden die minder goed zijn verankerd in het lexicon.

Minder woorden als je spreekt

Van Egmond wilde weten of de Wet van Zipf ook opgaat voor gesproken taal en zo ja, hoe dit werkt bij afasiepatiënten (mensen met een niet-aangeboren taalstoornis ten gevolge van een hersenbeschadiging) die sterke woordvindingsproblemen hebben. Voor het onderzoek naar gesproken taal maakte ze gebruik van een bestaande verzameling gesproken teksten, dat een corpus wordt genoemd. In de gesproken taal vond ze inderdaad een Zipfiaans patroon.

Toch was er wel een verschil met geschreven taal: in gesproken taal putten we uit een kleinere woordenschat dan in geschreven taal. Op zich logisch, want als we schrijven kunnen we langer nadenken. Toch was het opmerkelijk dat ditzelfde gold voor speeches, immers teksten die van tevoren zijn uitgeschreven. Van Egmond: “Dat wijst erop dat iemand die een speech voorbereidt, er op de een of andere manier rekening mee houdt dat het uitgesproken gaat worden.”

Afasie is een taalstoornis die het gevolg is van een hersenbeschadiging. Hierbij kunnen verschillende taalproblemen optreden, zoals het verwisselen van klanken, taalbegripsproblemen of woordvindingsmoeilijkheden.

Pixabay CC0

Charlie Chaplin

Voor het onderzoek naar de gesproken taal van afasiepatiënten moest de promovenda zelf gesprekken opnemen. Dat viel nog niet mee, want voor deze groep mensen is lang praten een enorme opgave. Ze voerde daarom gesprekken met zeven mensen die een mildere vorm van afasie hadden. “Het heeft veel verschillende vormen, afhankelijk van welk hersengebied is aangetast, bijvoorbeeld door een beroerte. Ik heb gekeken naar mensen met niet-vloeiende afasie. Ze kunnen geen vloeiende zinnen maken omdat ze veel moeten zoeken naar woorden.”

De taalkundige had een aantal manieren om spraak te ontlokken bij de proefpersonen. Zo kregen ze een filmpje van Charlie Chaplin te zien om na te vertellen en werd hun gevraagd te vertellen hoe ze aan de afasie gekomen waren. Op die manier wist ze genoeg opnamemateriaal te verzamelen om vast te stellen dat ook hier de Wet van Zipf opgaat. Bovendien selecteerde ze nog 36 spraakfragmenten uit een corpus van Griekse, Engelse en Hongaarse mensen met een sterke vorm van afasie, waarvoor ze hetzelfde patroon vond. “Dat wijst erop dat het interne lexicon van afasiepatiënten nog intact is, ondanks de woordvindingsproblemen”, aldus Van Egmond. De internationale groep had overigens wel een iets kleinere woordenschat dan gemiddeld.

De frequentie van de woorden die haar proefpersonen gebruikten kwam overeen met die van ‘normale’ gesproken taal. Wel waren de woorden die de mensen met afasie gebruikten, vroeger verworven dan gemiddeld. “Dat is in overeenstemming met wat andere studies hebben aangetoond. De woorden die je als eerste hebt geleerd liggen het diepst verankerd in het netwerk. Ze hebben daardoor de meeste connecties met andere woorden en zijn daardoor het makkelijkst te gebruiken.”

Bron

Marjolein van Egmond, Zipf’s Law in Aphasic Speech. An Investigation of Word Frequency Distributions, proefschrift op 26 oktober 2018 verdedigd aan de Universiteit Utrecht.

ReactiesReageer