Je leest:

Computertaalkunde helpt bij ontwikkelen Nintendo-spel

Computertaalkunde helpt bij ontwikkelen Nintendo-spel

Auteur: | 15 april 2008

Twee taalkundigen hebben voor het Nintendo-spel My Word Coach 20.000 Nederlandse woorden geselecteerd en verdeeld over 20 moeilijkheidsniveaus. Zij hebben hiervoor gebruik gemaakt van de frequentie waarin de verschillende lemma’s voorkwamen in een verzameling teksten van 600 miljoen woorden. Doel van het spel is spelenderwijs je woordenschat te vergroten.

Onlangs is voor de Nintendo Wii en DS My Word Coach uitgekomen, een spel waarmee je je woordenschat van het Nederlands kunt vergroten. Nadat je beginniveau is vastgesteld, krijg je tijdens verschillende spelletjes nieuwe, voor jou waarschijnlijk onbekende woorden voorgeschoteld. De verwachting is dat als je dit spel dagelijks 20 minuten speelt, je iedere dag 4 of 5 nieuwe woorden leert.

Het idee voor My Word Coach komt van de Canadese toegepast taalkundige Thomas Cobb. Voor de Nederlandse versie zijn de Tilburgse hoogleraar ‘Geheugen, taal en betekenis’ Antal van den Bosch en de Vlaamse hoogleraar Computertaalkunde Walter Daelemans gevraagd om 20.000 woorden te selecteren, verdeeld over 20 moeilijkheidsniveaus. Zij hebben met behulp van een gigantische verzameling van teksten (in totaal zo’n 600 miljoen woorden), de Van Dale èn computertaalkunde aan deze opdracht kunnen voldoen.

Antal van den Bosch: “Een tekstverzameling van 600 miljoen woorden (opgebouwd uit allerlei soorten tekst) is zeker groot te noemen. Een simpel rekensommetje: een korte roman neemt 30 duizend woorden in, en een dikke pil 100 duizend woorden; dat zijn 20 duizend dunne of 6 duizend dikke boeken bij elkaar (zo’n 300 meter boekenplank).”

De woorden in het spel zijn ingedeeld in de verschillende niveaus op basis van hun frequentie van voorkomen: woorden die vaak voorkomen in het Nederlands zijn hoogstwaarschijnlijk makkelijke woorden die de meeste mensen wel kennen, laagfrequente woorden zullen waarschijnlijk moeilijke woorden zijn. “Een topwoord als economie komt ongeveer 374 duizend keer voor (of gemiddeld eens per 1.500 woorden), terwijl een woord als xylograaf (houtsnijder) maar één keer voorkomt in de hele verzameling.”, aldus Van den Bosch. “Naast xylograaf zijn er tienduizenden andere woorden die maar één of twee keer voorkomen.”

Eenvoudig de computer laten tellen hoe vaak ieder woord voorkomt in de verzameling teksten was geen optie. Woorden als grote en grootste zijn namelijk afleidingen van hetzelfde woord groot, maar zouden door de computer als verschillende woorden gerekend worden. Ook werkwoordvervoegingen zouden elk als een apart woord gezien worden. Voor de telling is daarom gebruik gemaakt van woordfamilies. Alle afleidingen van hetzelfde woord zijn voor de telling bij elkaar genomen als één woord.

Computertaalkunde

Van den Bosch en Daelemans hebben deze telling gelukkig niet handmatig hoeven uit te voeren. Zij hebben hiervoor eerst Tadpole gebruikt, een automatische part-of-speech tagger die is ontwikkeld aan de Universiteit van Tilburg en de Universiteit van Antwerpen. Een tagger kan met grote snelheid van alle woorden in een tekst de woordsoort en het bijbehorende lemma (het woord waarvan het woord in de tekst is afgeleid) bepalen. Zo kan stromen in een tekst worden getagd als een zelfstandig naamwoord met als lemma stroom, terwijl in een andere tekst het een werkwoord kan zijn met als lemma stromen. Van den Bosch: “De tagger verwerkt op een snelle computer zo’n 10.000 woorden per seconde – het taggen kostte dus in totaal zo’n 1.000 uur, een taak die we verdeeld hebben over een paar computers.”

In het spel wordt niet alleen gebruik gemaakt van bestaande Nederlandse woorden, maar ook van non-woorden en van woorden met bewust gemaakte spelfouten. Ook deze hebben de onderzoekers gegenereerd.

Nadat de tagger zijn werk had gedaan kon van iedere woordfamilie de frequentie van voorkomen worden bepaald. Uit deze lijst zijn vervolgens 20.000 woorden gekozen voor My Word Coach. Woorden die maar één keer voorkwamen in de hele verzameling van teksten werden geselecteerd voor de moeilijkste niveaus, woorden die vaker voorkwamen zijn in steeds makkelijkere niveaus beland.

Samenstellingen

De hele selectie is tenslotte nog handmatig gefilterd door twee neerlandici, zodat ongewenste woorden en merknamen niet zouden worden opgenomen in het spel. Zij hebben speciale aandacht besteed aan samenstellingen. In het Nederlands zijn oneindig veel nieuwe woorden te maken door bestaande woorden aan elkaar te koppelen. Veel van deze samenstellingen zullen zelden voorkomen ( vangkuil komt maar één keer voor in de hele verzameling teksten), maar door de combinatie van bestaande woorden is eenvoudig te begrijpen wat ze betekenen. Op ieder spelniveau is bekeken of de samenstellingen mochten blijven of niet. “Dat was erg moeilijk en subjectief; het verschil tussen een niveau 1 en niveau 20 woord is erg duidelijk, dat tussen een niveau 15 en 16 woord is onmogelijk in te schatten, we hebben dus vaak ook de statistiek het laatste woord gegeven.”, aldus Walter Daelemans.

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/stevin.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 15 april 2008
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.