Je leest:

Focus op spraaktechnologie

Focus op spraaktechnologie

Auteur: | 19 november 2008

Vandaag spreekt de nieuwe hoogleraar Spraaktechnologie, prof. dr. ir. David van Leeuwen, aan de Radboud Universiteit zijn inaugurele rede uit. Hij zal zich de komende jaren bezighouden met spraaktechnologie en haar toepassingen. In zijn oratie legt hij uit waarom het voor een computer zo moeilijk is om spraak te verstaan en sprekers te herkennen.

Bellen met een computer die verstaat wat je zegt. Het navigatiesysteem in de auto dat vertelt hoe je moet rijden. Dicteersoftware waarmee je zelf niet meer hoeft te typen, maar alleen hoeft te dicteren. Steeds vaker kom je spraaktechnologie tegen in je dagelijkse leven. En kun je dus ook merken dat het weliswaar allemaal heel handig is, maar nog lang niet perfect werkt. De computer verstaat je soms verkeerd, hoe duidelijk je ook spreekt. En de dame in je navigatiesysteem klinkt misschien heel vriendelijk, maar ook nog wel wat onnatuurlijk digitaal. Voor spraaktechnologen is er voorlopig dus nog genoeg werk te doen!

Aan de Nijmeegse Radboud Universiteit is afgelopen voorjaar een nieuwe hoogleraar Spraaktechnologie benoemd die ervoor zal zorgen dat Nederland aan kop blijft lopen bij spraaktechnologische ontwikkelingen. Prof. dr. ir. David van Leeuwen spreekt vandaag in de Aula van de universiteit zijn oratie uit. Hij wil de komende jaren met zijn vakgroep de problemen aanpakken waar de verschillende onderdelen van spraaktechnologie tegen aan lopen.

Prof. dr. ir. David van Leeuwen

Spraakherkenning

Voor een spraakherkenner aan de slag kan, is hij getraind met heel veel trainingsmateriaal. Dat trainingsmateriaal bestaat uit een heleboel teksten in een bepaalde taal, soms zelfs alleen over één specifiek onderwerp. Dankzij deze teksten kan de computer een voorspelling doen welk woord hij in een bepaalde context verwacht. Vaak kan je namelijk al heel goed voorspellen hoe een zin zal… aflopen. Als de computer dit niet kan, bijvoorbeeld aan het begin van een zin of bij een hele vreemde zin, zal hij zijn herkenning vooral moeten baseren op de klanken die hij hoort. Van elke klank in de taal beschikt de computer over verschillende klankbeelden, een akoestisch model van een klank in een bepaalde context. Omdat de /a/ in ‘pap’ anders is dan die in ‘kas’, moet van elke klank verschillende modellen uit verschillende contexten aanwezig zijn.

Maar zelfs met een goede kansberekening en voldoende akoestische modellen gaat de spraakherkenner soms de fout in. Dit komt doordat er nogal wat variatie zit de input die hij krijgt te verwerken. Iedere spreker heeft bijvoorbeeld zijn eigen spreekstijl, soms met accent en soms beïnvloed door hoe de spreker zich voelt. Maar ook de akoestische omstandigheden waarin de spreker spreekt wisselen nog wel eens: dan weer met veel lawaai op de achtergrond of juist met een flinke galm op de spraak. Tenslotte kan ook de kwaliteit van de microfoon en van het transmissiekanaal (denk aan een krakende telefoonlijn) voor de nodige problemen voor de spraakherkenner zorgen. Met al deze variatie moet een goede spraakherkenner kunnen omgaan.

Een automatische spraakherkenner zal problemen hebben om je te verstaan wanneer er veel achtergrondlawaai is. Ook een slechte telefoonverbinding kan het de computer knap lastig maken. Wetenschappers zijn er nog altijd mee bezig om computers in staat te stellen spraak van ruis te laten onderscheiden zodat de spraak zo goed mogelijk herkend kan worden.

Sprekerherkenning

Een sprekerherkenner hoeft eigenlijk alleen maar op een heel eenvoudige vraag antwoord te geven: ‘is deze spraak van spreker X?’. Dit antwoord bepaalt hij door vast te stellen in hoeverre de spraak overeenkomt met de spraak van spreker X. Als deze score boven een bepaalde drempelwaarde komt is het antwoord ‘ja’ en anders ‘nee’.

Het moeilijke zit hem hier in het bepalen van de juiste drempelwaarde. Als je de drempel te hoog legt, heb je kans dat je de spreker afwijst, terwijl het wel dezelfde spreker is, een zogenaamd vals negatief. Dit kan gebeuren doordat de spraaksignalen die met elkaar vergeleken worden verschillen in wat er gezegd wordt of hoe de opname gemaakt is. Ook hier speelt variatie dus een rol. Maar als je de drempel te laag legt, heb je weer meer kans op een vals positief: de computer zegt dat het dezelfde spreker is, terwijl dat niet zo is. Voor elke individuele toepassing zal een optimale drempelwaarde vastgesteld moeten worden. Een bank zal bijvoorbeeld de drempel hoog leggen, om te voorkomen dat ongewenste personen bij gevoelige informatie kunnen komen.

Toekomst

De nieuwe hoogleraar Van Leeuwen wil zich gaan bezighouden met het verbeteren van de verschillende spraaktechnologieën. Hij wil bijvoorbeeld een manier ontwikkelen om vast stellen hoe een sprekerherkenner het beste afgesteld kan worden. Bovendien wil hij de onderzoekers in zijn vakgroep stimuleren om mee te doen aan wereldwijde evaluaties van spraak- en sprekerherkenners. Door zulke uitdagingen aan te gaan, kunnen de technologieën flink verbeterd worden.

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/stevin.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 19 november 2008

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.