Je leest:

Op jacht naar kindertaal

Op jacht naar kindertaal

Auteur: | 11 mei 2010

Nijmeegse taalwetenschappers verzamelen kinderboeken, Cito-toetsen en de Donald Duck. Hun databank van geschreven kindertaal vormt straks het standaardwerk voor onderzoek naar het leren van taal, tweetaligheid en taalachterstanden. Het lexicon kindertaal is een van de projecten waaraan NWO subsidie heeft toegekend in het programma NWO-middelgroot.

‘Eindelijk.’ Orthopedagoog Agnes Tellings van het Nijmeegse Behavioural Science Institute is opgetogen over het binnenhalen van de NWOmiddelgrootsubsidie. Het plan voor een databank van geschreven kindertaal met 20.000 lemma’s lag er al jaren, maar het was moeilijk er onderzoeksgeld voor te vinden. ‘Het is een tijdrovend karwei en uren zijn duur. De aanleg van het lexicon zelf levert geen publicaties en promoties op, dat maakt financiering lastig. Terwijl taalonderzoekers zitten te popelen om deze gegevens.’

De databank vormt straks een hulpmiddel bij de ontwikkeling van spraakcomputers voor kinderen. Maar hij is ook bedoeld voor onderzoek naar fundamentele vragen over de verwerking van taal in het brein: hoe leert een kind lezen, wat gaat er mis bij dyslexie of wat gebeurt er in de hersenen bij meertaligheid?

Scott Ableman

Donald Duck

Voor de aanleg van het lexicon van Nederlandse geschreven kindertaal stelt NWO een kwart miljoen euro beschikbaar, de Radboud Universiteit legt 75.000 euro bij. Het Nijmeegse Behavioural Science Institute en het Donders Centre for Cognition werken bij de bouw van het lexicon samen met de Universiteit van Tilburg, de Universiteit van Amsterdam en de Universiteit Leiden. De komende drie jaar gaan de bouwers op jacht naar tekst. Fragmenten uit de best gelezen kinderboeken en teksten uit schoolboeken, maar ook uit Okki en Donald Duck, van internet en de ondertiteling van kinderprogramma’s op televisie.

De teksten moeten een afspiegeling vormen van wat kinderen tussen hun zesde en twaalfde jaar lezen. De verzamelde teksten vormen samen het corpus: de basis van de verzameling. Bij elke tekst komt achtergrondinformatie als de herkomst en de leeftijd waarvoor hij is bedoeld. Verder wordt van de vijf miljoen woorden uit het corpus de woordklasse bepaald – is het een zelfstandig naamwoord, een lidwoord, een bijvoeglijk naamwoord? Dit classificeren hoeft gelukkig niet meer handmatig, maar de computer is niet foutloos. Studentassistenten controleren de indeling. Tellings: ‘De programma’s zijn gelukkig met sprongen vooruitgegaan. Tien jaar geleden was dit veel meer werk geweest.’

Taalachterstanden

Naast het corpus is er het lexicon: 20.000 belangrijke woorden uit de teksten, aangevuld met labels als de woordlengte, het aantal lettergrepen en het aantal ‘buren’: woorden uit het lexicon die maar één letter van het woord verschillen. Hoe groter het aantal buren, hoe langer het brein nodig heeft om een woord te herkennen. ‘Het lexicon is de gewenste minimale woordenschat van kinderen aan het eind van de basisschool’, aldus Tellings. Ze verwijst naar de discussie rond de aanpak van taalachterstanden. De gemeente Amsterdam introduceerde vorig jaar een basiswoordenlijst: de woorden die ieder kind in groep 3 zou moeten kennen. Er was meteen debat over de keuze van de woorden en de vraag hoe je kinderen deze woorden het beste kunt leren. De nieuwe databank geeft deze discussie een wetenschappelijk fundament.

‘Hierin kunnen onderzoekers opzoeken welke woorden en zinsconstructies een kind op welke leeftijd schriftelijk krijgt aangeboden.’ De wetenschappers zijn bij de bouw van het corpus afhankelijk van de welwillendheid van uitgevers. ‘Vanwege het auteursrecht geven zij niet graag complete teksten vrij’, vertelt Tellings. Gelukkig kunnen de onderzoekers met alinea’s ook uit de voeten. Of, als het niet anders kan, losse zinnen: ‘Losse woorden zijn niet genoeg, het gaat ons ook om de grammaticale structuren die kinderen leren.’

Onderzoekers van kindertaal maken nu vaak noodgedwongen gebruik van Celex, het lexicon van geschreven taal voor volwassenen. Maar je hoeft geen taalonderzoeker te zijn om te weten dat vocabulaire en zinsbouw in kinderboeken anders is dan bij teksten voor volwassenen. Daarnaast is er het lexicon van kindertaal van de Universiteit Tilburg, mede-aanvrager van de subsidie. Tellings: ‘Dat bestand stamt uit begin jaren negentig, bronnen als ondertiteling en digitale taal ontbreken. Er zitten ook voorleesteksten in, terwijl taalkundigen graag willen weten wat kinderen zélf onder ogen krijgen.’

Dove kinderen

Tellings gebruikt het lexicon straks ook voor haar eigen onderzoek. De orthopedagoog richt zich op de taalontwikkeling van dove kinderen. Horende kinderen zijn omringd door taal, zelfs al voor hun geboorte horen zij mensen spreken. ‘Voor dove kinderen geldt dat niet. Het kost ze extra tijd om nieuwe woorden uit de gesproken taal te leren.’ Tellings wil daarom weten wat voor tekst je dove kinderen het beste kunt aanbieden. ‘Welke woorden zijn bijvoorbeeld het nuttigst?’

Wanneer een woord vaak voorkomt is dat een eerste indicatie van ‘nuttigheid’, maar Tellings kijkt ook naar andere karakteristieken. ‘Zoals het aantal familieleden van een woord. Bij het woord ‘werk’ zijn dat woorden als ‘werkster’, ‘verwerken’ en ‘werkplaats’.’ Het aantal familieleden is dan ook een van de karakteristieken die in het lexicon zullen worden opgenomen. Tellings: ‘Ik wil het aantal familieleden in de kindertaal weten. Woorden die alleen volwassenen kennen, tellen bij ons niet mee.’

Lees verder op Kennislink:

Hoe snel heb jij leren lezen? Stok stip stap werkt niet Liever lettergrepen lezen Digitale prentenboeken goed voor taalontwikkeling

Dit artikel is een publicatie van Hypothese, NWO-blad voor de wetenschap.
© Hypothese, NWO-blad voor de wetenschap, alle rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 11 mei 2010
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.