Je leest:

Een goed gesprek met je computer

Een goed gesprek met je computer

Auteur:

Communiceren met je computer is al jaren mogelijk. Je verzendt je boodschap via de knopjes op je muis of toetsenbord en ontvangt een reactie terug via het beeldscherm. Dankzij spraak- en taaltechnologie is het steeds vaker ook mogelijk om door middel van spraak met je computer te communiceren. Je zegt gewoon wat je wilt en de computer praat tegen je terug. Dit loopt nog niet altijd even gesmeerd. Welke typen miscommunicatie komen er zoal voor?

In 1968 zagen ze het al helemaal voor zich. Over iets minder dan 40 jaar, in 2001, zou de techniek al zo ver ontwikkeld zijn dat computers nauwelijks nog van mensen te onderscheiden zijn. In de film 2001: A Space Odyssey kunnen de hoofdpersonen een gezellig gesprekje voeren met HAL, de computer die hun ruimteschip bestuurt. HAL begrijpt meteen wat zijn passagiers bedoelen en hoort aan hun stem of ze boos zijn of dat ze iets cynisch bedoelen. Vervolgens geeft hij ook nog razendsnel een passend antwoord met de juiste intonatie. Een dialoog zoals die ook tussen mensen onderling gevoerd zou worden!

Ondertussen zijn we het jaar 2001 allang gepasseerd en weten we allemaal dat het toch niet zo snel is gegaan met de technologische ontwikkeling. Communiceren met je computer doe je meestal nog met specifieke commando’s. Je verzendt je boodschap via je toetsenbord of met de knoppen van je muis. En je computer reageert daarop door je commando uit te voeren of in het beeldscherm te vragen naar meer informatie. Steeds vaker is het ook mogelijk om met spraak te communiceren met de computer. Als je belt naar de gemeente of de bank krijg je al regelmatig eerst een computer aan de lijn. Je stelt je vraag aan hem en hij beantwoordt die of verbindt je door met een menselijke medewerker. En als je ’s avonds of tijdens drukke periodes het informatienummer van het openbaar vervoer (0900-9292, 70ct/min) belt, is de kans groot dat je in een dialoog met een computer te weten komt hoe je het beste kunt reizen.

Verwachtingen

De dialogen die je met deze computers voert zijn nog erg beperkt. De computer stelt je een gerichte vraag en daar moet je een kort en duidelijk antwoord op geven. Als je antwoord niet aan de verwachting van de computer voldoet, kan hij je niet verder helpen. Hij begrijpt immers niet echt wat je zegt, maar herkent alleen bepaalde patronen in je spraaksignaal. Deze patronen, die wij woorden noemen, activeren een volgende stap in het dialoogproces, zodat de computer je een passend antwoord kan geven. Als de computer geen patroon herkent in je spraaksignaal, omdat je bijvoorbeeld iets zegt dat de ontwikkelaars niet hadden verwacht, kan hij je ook geen geschikt antwoord geven. De dialoog loopt dan spaak.

Medium
Uit het spraaksignaal dat de computer binnenkrijgt, moet de spraakherkenningsoftware verschillende kenmerken halen, zoals toonhoogte en geluidssterkte. Deze kenmerken vergelijkt hij met de kenmerken van de woorden die hij geleerd heeft. Zo ‘verstaat’ hij uit het spraaksignaal de woorden die het meest overeenkomen met de woorden in zijn database.
Radboud Universiteit

Het is dus belangrijk dat de verwachtingen van beide partijen, mens en computer, reëel zijn. De mens moet niet teveel verwachten. Je zult je computer bijvoorbeeld geen advies moeten vragen voor je complexe relatieproblemen. En de computer moet juist niet te weinig verwachten. Binnen het domein waarvoor hij is ontwikkeld zal hij zoveel mogelijk verschillende onderwerpen moeten kunnen behandelen. Een spraakcomputer van de bank zal dus niet alleen moeten kunnen vertellen hoe hoog het huidige rentepercentage is, maar ook bijvoorbeeld hoe je je rekening op kunt zeggen.

Pragmatiek

Stel, de computer en jij weten wat je van elkaar kunt verwachten. Dan nog kan je je boodschap op zo’n manier verwoorden dat de computer niet weet wat je bedoelt. De betekenis van een boodschap maak je namelijk niet alleen op uit wat de spreker letterlijk zegt. Lichaamstaal en emotie in de stem voegt vaak ook veel betekenis toe. Bovendien bedoelen we lang niet altijd letterlijk wat we zeggen. Soms bedoel je iets ironisch, bijvoorbeeld als je zegt “Nou, dat schiet lekker op!”. En soms verwacht je dat de ontvanger van je boodschap, de luisteraar, uit de context wel op zal maken wat je bedoelt. Als je bijvoorbeeld zegt “Ik heb het koud”, kan je verwachten dat de luisteraar het raam dicht doet of een dik vest voor je gaat halen. Dit zijn allemaal voorbeelden van pragmatisch taalgebruik, waarbij de situatie bijdraagt aan de betekenis van de zin. Computers kunnen zulke uitingen niet begrijpen en zullen alles letterlijk opvatten.

Spraak

Alle mogelijke oorzaken van miscommunicatie tussen mens en computer die tot nu toe zijn besproken, zijn taalkundig. Ook als je via tekst, bijvoorbeeld chat, zou praten met de computer, zou je tegen deze problemen oplopen. Communicatie door middel van spraak levert weer een nieuwe reeks mogelijke misverstanden op, zoals je kunt zien in onderstaand filmpje.

Niemand spreekt woorden op precies dezelfde manier uit. Dit maakt het voor programmeurs erg lastig om een computer te ontwikkelen die iedereen verstaat die Nederlands spreekt. Sommige mensen spreken netjes Algemeen Beschaafd Nederlands, maar de meesten spreken met een accent dat verraadt waar ze vandaan komen. Dit kan bijvoorbeeld Marokko of Suriname zijn, maar ook tussen sprekers uit Limburg en Groningen zijn al grote verschillen in uitspraak te horen. Een andere vorm van uitspraakvariatie komt door de snelheid waarmee we spreken. Als je goed luistert, zul je zien dat veel mensen “heboe” zeggen in plaats van “heleboel”. Of “egeefment” voor “op een gegeven moment”. Hoe iemand precies verschillende woorden samentrekt is lastig te voorspellen en dus ook lastig te leren aan een computer.

Spontane spraak is zelden helemaal vloeiend. Ook dit maakt het lastig voor een computer om de spraak te verwerken. Bijna iedereen onderbreekt zijn zin wel eens om ‘uh’ of een ander stopwoordje in te voegen. Ook blijft iedereen wel eens kort hangen op een woord. Dit maakt het voor de computer lastiger om patronen te herkennen in het spraaksignaal. Bovendien zijn onze spontaan gesproken zinnen zelden grammaticaal correct. Luister maar eens goed naar je vrienden als ze een verhaal vertellen. Als je die tekst zou opschrijven, zou je gelijk zien dat de zinnen vaak helemaal niet goed lopen. Wij mensen kunnen de spraak toch makkelijk volgen, maar de computer heeft het er moeilijk mee. De spraak is niet te plaatsen binnen de grammatica die hem geleerd is.

Een laatste mogelijke oorzaak van miscommunicatie tussen mens en computer zijn stoorsignalen. Spraak is in feite niets meer dan luchttrillingen, maar de computer kent alleen enen en nullen. Een microfoon zal de luchttrillingen moeten opvangen en omzetten in een signaal waar de computer mee kan werken. Deze microfoon kan echter ook omgevingsgeluiden opvangen of zomaar even storen. Dit kan ervoor zorgen dat de computer een verstoord spraaksignaal te verwerken krijgt dat hij onmogelijk kan herkennen als spraak.

Werk aan de winkel

In bovenstaand filmpje uit 1987 doet Apple een geloofwaardige voorspelling over hoe communicatie tussen mens en computer in de toekomst zal verlopen. Er is veel bereikt sinds het uitkomen van deze film. Met behulp van spraaksynthese kan de computer al een aardig woordje spreken. De laatste jaren is het wetenschappers ook gelukt om deze spraak steeds natuurlijker te laten klinken. Eenvoudig alle letters omzetten naar de bijbehorende klanken is niet genoeg. De computerspraak klinkt dan erg robotachtig en is zo goed als onverstaanbaar. De computer moet ook rekening houden met de omliggende klanken. Deze beïnvloeden namelijk hoe een letter uitgesproken moet worden. Bovendien moet de computer een passende intonatie berekenen om de zin mee uit te spreken. Zo zal de zin niet monotoon klinken. Hoewel de computer vaak nog moeite heeft met het uitspreken van eigennamen, zoals familienamen en straatnamen, is de computerspraak soms al niet meer van echt te onderscheiden.

Het grootste probleem bij communicatie tussen mens en computer blijft voorlopig de automatische spraakherkenning. Hoewel de laatste decennia de techniek langzaamaan steeds beter is geworden, kan de computer nog lang niet alle willekeurige spraak verstaan. De grote variatie tussen verschillende sprekers van dezelfde taal maakt het bijna onmogelijk om een goed computermodel te maken dat alle spraak kan herkennen. Helmer Strik, taal- en spraaktechnoloog aan de Radboud Universiteit Nijmegen, legt uit welke gevolgen dit heeft. “Er zijn steeds meer toepassingen van automatische spraakherkenning mogelijk, zeker als je goed rekening houdt met de mogelijkheden en de beperkingen van de techniek.”

Spreker bekend?

“Vooral sprekerafhankelijk is er al veel mogelijk”, aldus Helmer. Dit houdt in dat de spraakherkenningssoftware alleen werkt voor de persoon waarop hij is afgestemd. Deze gebruiker heeft verschillende tekstjes voorgelezen om de software te trainen. Zo heeft de computer een individueel akoestisch model kunnen opstellen van die specifieke spreker. Hierin staat nauwkeurig hoe die spreker verschillende klanken uitspreekt. Dit akoestisch model kan de software vervolgens gebruiken om de spraak van die spreker te kunnen herkennen. Veel mensen die vaak achter de computer werken gebruiken al zulke sprekerafhankelijke spraakherkenning. Het inspreken van mailtjes en andere teksten scheelt hen veel tijd en inspanning.

Medium
Sprekerafhankelijke spraakherkenning is speciaal getraind voor één specifieke spreker. Met deze software kan je veel tijd besparen bij het maken van mailtjes, brieven of andere teksten. Ook voor mensen met RSI is deze techniek een uitkomst.

Sprekeronafhankelijke spraakherkenning is dus een stuk lastiger te ontwikkelen. “Naast de variatie tussen sprekers maken achtergrondgeluiden de taak vaak nog een stuk complexer”, legt Helmer uit. “De computer moet dan kunnen onderscheiden wat spraak is en wat niet.” Taal- en spraaktechnologen zitten niet stil om ook voor dit probleem een oplossing te vinden. Voorlopig wordt sprekeronafhankelijke spraakherkenning toch al regelmatig gebruikt. “Bijvoorbeeld door telefonische informatiediensten. Maar in de toekomst kun je de techniek ook in het onderwijs en de zorg tegenkomen”, vertelt Helmer. In het onderwijs kan de software bijvoorbeeld de taak van de docent deels overnemen door te controleren of de leerling zijn Duitse of Franse woordjes wel goed uitspreekt. In de zorg kan de techniek de werklast van logopedisten verlagen als hij ingezet wordt bij spraaktherapie.

Om de communicatie tussen mens en computer nog verder te verbeteren zijn wetenschappers ook op andere gebieden druk bezig. Zo zal de computer in de toekomst ook emoties kunnen herkennen in spraak. Ook is de ontwikkeling van beeldherkenning in volle gang. Maar op een computer zoals HAL zullen we volgens Helmer Strik nog wel een tijdje moeten wachten. “Binnen de automatische spraakherkenning wordt al sinds de jaren ’70 een model gebruikt dat in essentie niet veranderd is. De prestaties van dat model zijn wel langzaamaan beter geworden, maar voor we het niveau van HAL bereikt hebben, moet er nog veel gebeuren. Tenzij iemand iets revolutionairs ontdekt, zoals een model dat veel meer geschikt is dan het huidige model.”

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"http://www.kennislink.nl/kernwoorden/stevin.atom", “max”=>"3", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 03 april 2009

Discussieer mee

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

LEES EN DRAAG BIJ AAN DE DISCUSSIE