Je leest:

Brein discrimineert niet op accent

Brein discrimineert niet op accent

Auteur: | 23 maart 2006

Spraakherkenning is een ingewikkeld proces: de spreker zendt een eenvoudige boodschap uit, maar de luisteraar ontvangt een complex geluidssignaal. Hierin zit allerlei extra informatie over de spreker verborgen, evenals omgevingsgeluiden. Toch krijgt ons brein de boodschap meestal zonder problemen door, zelfs van een spreker met een accent. Hier liggen dynamische leerprocessen aan ten grondslag.

Computergestuurde spraakherkenners kunnen nog heel wat leren van ons brein. Wanneer wij naar iemand luisteren voltrekken zich in onze hersenen zeer ingewikkelde leerprocessen die het mogelijk maken spraakklanken moeiteloos te ontcijferen. Om precies te ontdekken welke taken ons brein tijdens spraakherkenning uitvoert, deed Frank Eisner een promotieonderzoek aan het Max Planck Instituut in Nijmegen. Uit zijn onderzoek blijkt dat dynamische leerprocessen ervoor zorgen dat we met relatief weinig moeite spraak kunnen verstaan, ook van een spreker met een spraakgebrek of een regionaal accent.

Spraaksignalen

Spraak is naast muziek het ingewikkeldste geluid dat ons dagelijks bereikt. Naast de inhoudelijke boodschap, vangen we ook informatie op over de spreker door zijn of haar stemgeluid, bijvoorbeeld over het geslacht van de spreker (hoge of lage stem) en geografische herkomst (accent). Ondertussen horen we ook nog andere geluiden uit de omgeving. Het is dus een nogal ingewikkelde taak om daar de juiste boodschap uit te filteren. Voor onze hersenen is dit geen probleem, maar voor computers wel. Tot nu toe is het nog niet gelukt om computers die taalkundige boodschap even nauwkeurig uit het spraaksignaal te laten filteren als het brein dat doet. In onze hersenen treden bij het uitvoeren van deze taak allerlei leerprocessen in werking. De dynamiek van deze processen blijkt uit het feit dat de boodschap vrijwel altijd doorkomt, ook als de spreker een spraakgebrek heeft of een accent.

Spraakgebrek

Eisner confronteerde zijn proefpersonen met een spreker die een bepaalde spraakklank op een ongewone manier articuleerde. Het kenmerk van de spreker was dat hij een afwijkende uitspraak liet horen van de klanken f of s: een klank ergens tussen de f en s in. De luisteraars kregen steeds een ambigue klank te horen in een specifiek woord. Zij hoorden bijvoorbeeld: /kara?/ of /olij?/ waar de ? de ambigue klank voorstelt. Het woord klonk alsof de spreker zijn f meer als een s uitsprak. Na het horen van die uitspraak, interpreteerde deze groep luisteraars de ambigue klank vanzelf als een f. Een andere groep die herhaaldelijk dezelfde klank had gehoord in woorden als /naaldbo?/ of /radij?/ interpreteerde de ambigue klank als een s. Luisteraars kunnen dus de input die zij binnenkrijgen gebruiken om de volgende spraakklanken te interpreteren.

Sprekerspecifiek

Op basis van de aangeboden taaluitingen werd de grens tussen de f en s dus opnieuw vastgesteld door de luisteraar en op die manier opgeslagen in de hersenen. Vervolgens werd deze oude informatie gebruikt om nieuwe informatie te interpreteren. Dit werd heel specifiek toegepast op de uitingen van de betreffende spreker en niet op andere sprekers. Eisner onderzocht ook hoelang de luisteraar deze nieuwe uitspraak onthield. Daarvoor werd de proefpersoon na twaalf uur nog eens opnieuw getest. Deze bleek ook twaalf uur later nog in staat om de uitingen van de spreker met de ambigue klanken op de juiste manier te interpreteren. Het maakte geen verschil of luisteraars in de tussentijd blootgesteld waren aan uitingen van andere sprekers.

Leerproces

Er gaat dus een leerproces vooraf aan de interpretatie van het spraaksignaal. Zo lijken de hersengebieden die betrokken zijn bij spraakherkenning, een bepaalde hierarchische structuur te bezitten waarin bepaalde processen vooraf gaan aan andere. Met functionele magnetische resonantie beeldvorming (fMRI) kun je de hersenactiviteit meten wanneer het bepaalde stimuli krijgt aangeboden. Hieruit bleek dat vóór het interpreteren van het geluidssignaal andere gebieden in de hersenen oplichtten dan tijdens het interpreteren.

Bij computergestuurde spraakherkenning zou men dus uit moeten gaan van een model dat verschillende stappen onderscheidt in spraakherkenning. Wellicht dat ook de computer in de toekomst dan niet meer discrimineert op het accent van de spreker.

Frank Eisner is op 7 maart gepromoveerd op het proefschrift Lexically-guided perceptual learning in speech processing aan de Radboud Universiteit Nijmegen. Momenteel is hij verbonden aan de Speech Communication Group van het Institute of Cognitive Neuroscience, University College London.

Meer over computergestuurde spraakherkenning:

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 23 maart 2006
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.