Stemmen als afstandskaarten opgeslagen in ons brein

Hoe slaan we stemmen op in ons geheugen? Hoe houden we stemmen van verschillende sprekers uit elkaar? En hoe gaan onze hersens om met individuele stemvariatie? In zijn proefschrift, dat hij deze week verdedigde aan de Radboud Universiteit, legt Attila Andics de subtiele processen in ons brein bloot die schuilgaan achter stemherkenning.

18 januari 2013

“Hallo, met mij”, zegt de stem aan de telefoon. Meestal weet je binnen enkele seconden of je te maken hebt met je moeder, je partner, je baas of een onbekende. Het herkennen van een stem is een belangrijke sociale vaardigheid, die we dagelijks toepassen. En ook voor oog- (en oor)getuigen van een misdaad is stemherkenning erg belangrijk. Maar hoe komt het dat we stemmen zo snel herkennen?

De manier waarop we stemmen herkennen, is voor een deel vergelijkbaar met de manier waarop we gezichten herkennen, legt taalwetenschapper Attila Andics uit: “Een bekend gezicht kun je vaak al herkennen op basis van een enkel detail: een wenkbrauw, een kapsel of een lach.”

“Hetzelfde geldt voor een bekende stem. Ook die kun je al herkennen op basis van een klein stukje spraak. Maar hoewel er veel onderzoek is gedaan naar het herkennen van gezichten, is er eigenlijk veel minder bekend over stemherkenning.”

Uitspraak op microniveau

Wat zijn de kenmerken waarop we een stem kunnen herkennen? Een belangrijke aanwijzing is pitch, of toonhoogte, weet Andics. Toch is dat niet de enige aanwijzing, want toonhoogte kunnen we makkelijk manipuleren en toch blijkt het heel moeilijk om iemands stem te imiteren. De individuele verschillen liggen nog subtieler, een daarom zoomde Andics in op de kleinste betekenisonderscheidende taaleenheden: fonemen. In zijn onderzoek keek Andics naar de uitspraak van afzonderlijke klinkers en medeklinkers.

De onderzoeker liet dertien sprekers van het Nederlands allerlei woorden uitspreken met een CVC-structuur: een opeenvolging van een medeklinker (Engels: consonant), een klinker (Engels: vowel) en een medeklinker. De opnames van de woorden van die verschillende sprekers werden gehusseld en voorgelegd aan een groep Nederlandse proefpersonen. Die moesten na elk woord aangeven of ze dezelfde spreker of een andere spreker hoorden. De proefpersonen bleken buitengewoon goed in staat om de stemmen te herkennen.

Onderscheidend vermogen

Een belangrijke bevinding was dat sommige fonemen of klanken nauwkeurigere uitkomsten gaven dan andere. Stemmen werden makkelijker geïdentificeerd bij het horen van de klanken m-e-s, maar moeilijker bij het horen van de klanken l-o-t. Andics: “Ons onderscheidend vermogen werkt beter bij een e dan bij een o. Als je hey zegt aan de telefoon heb je dus een grotere kans dat je herkend wordt dan wanneer je hoi zegt.” We kunnen stemmen niet alleen makkelijker herkennen bij de genoemde klanken, we kunnen stemmen ook beter onthouden als we de juiste input krijgen.

Hoe komt het dat we stemmen beter herkennen op basis van de ene klank, en slechter op basis van de andere? Volgens de promovendus heeft dat ermee te maken dat klanken als m-e-s minder individuele stemvariatie toelaten. Iedereen spreekt de e dus vrij consistent uit, terwijl iemands o vaker verschilt in het ene of het andere woord, en op het ene of het andere moment. En dat op zijn beurt heeft weer te maken met de bouw van ieders spraakkanaal.

Klanken die weinig individuele stemvariatie toelaten, helpen dus om sprekers van elkaar te onderscheiden. Andics: “Dit is een redelijk nieuwe bevinding die belangrijke consequenties kan hebben. In het geval van misdaadopsporing kan het bijvoorbeeld handig zijn om vooral woorden met stemonderscheidende fonemen te laten horen aan oorgetuigen.”

Mindmaps

Een andere belangrijke uitkomst van het onderzoek was dat sommige sprekers makkelijker te herkennen waren dan andere. De proefpersonen wezen ook allemaal dezelfde ‘makkelijke’ en ‘moeilijke’ stemmen aan.

Hoe dit precies komt heeft volgens Andics alles te maken met de manier waarop stemmen worden opgeslagen in ons brein: “Stel je een kaart voor waarop allerlei verschillende stemmen worden gepositioneerd. De meest algemene en dus moeilijk van anderen te onderscheiden stemmen bevinden zich in het centrum van de kaart, de afwijkende en dus makkelijk te onderscheiden stemmen bevinden zich in de periferie.”

Alle stemmen die we horen krijgen een plekje in zo’n mindmap, waarin ze gesitueerd zijn ten opzichte van een centrum: een gemiddelde van alle stemmen die we ooit hebben gehoord. Bij het luisteren naar spraak is ons brein steeds bezig om de positie van afzonderlijke stemmen te berekenen op basis van dit gemiddelde. Een prototypische stem lijkt op de stemmen die je eerder hebt gehoord; een a-typische stem wijkt ervan af. Uit fMRI-onderzoek blijkt er meer hersenactiviteit is bij het herkennen van ‘gemiddelde stemmen’.

Ditzelfde fMRI-onderzoek wijst erop dat individuele stemmen ook weer in afzonderlijke mindmaps worden opgeslagen. Voor elke stem die we kennen onthouden we een gemiddelde: de stem zoals die doorgaans klinkt. Maar op momenten dat iemands stem afwijkt van zijn eigen gemiddelde, geeft het brein een groter signaal af. Op dat moment is hij moeilijker te herkennen.

“Stemherkenning gebeurt in twee verschillende fases. Enerzijds bepalen we de afstand van iemands stem ten opzichte van het algemene gemiddelde; anderzijds bepalen we de afstand van zijn stem ten opzichte van zijn eigen gemiddelde. Dit weten we doordat er tijdens fMRI-onderzoek ook twee verschillende gebieden in het brein oplichten.”