Je leest:

Taal- en spraakles voor de computer

Taal- en spraakles voor de computer

Auteurs: en | 11 mei 2009

Een computer baseert zijn kennis van een taal meestal op vele voorbeelden van tekst en spraak in een databank. Zo weet hij precies wat in een taal voorkomt, en wat niet. Zo’n databank, een corpus, moet dan dus wel heel groot en compleet zijn. Wetenschappers zijn dan vaak ook jaren bezig om een corpus te maken. Gelukkig kunnen ze daarna hergebruikt worden.

Voor een computer kan spreken en luisteren, zal hij eerst de taal moeten leren. Dat is lang niet zo eenvoudig als het misschien lijkt. Simpel alle woorden uit de Dikke Van Dale aanleren en daarna nog alle grammaticaregels van het Nederlands invoeren, heeft geen zin. Mensen spreken namelijk niet in grammaticaal correcte zinnen. We haperen, beginnen opnieuw, spreken dialect en verzinnen alsmaar nieuwe woorden. Er zal dus een andere methode gebruikt moeten worden.

Menselijke taal is méér dan een optelsom van alle woorden uit de Van Dale plus alle grammaticaregels. Mensen maken lang niet altijd grammaticaal correcte zinnen, spreken met een accent en bedenken telkens nieuwe woorden. Dat is voor een computer lastig te begrijpen.

In plaats van de computer alle regels van een taal aan te leren, kiezen de meeste onderzoekers voor een statistische methode. Ze geven de computer hierbij grote hoeveelheden tekst en spraak. De computer analyseert deze en leert zo wat wel voorkomt in een taal en wat niet. Zo’n grote databank vol met teksten of spraakopnames heet een corpus (meervoud: corpora).

Corpora en lexica

Een corpus bestaat meestal niet alleen uit heel veel tekst of spraak. Vaak hebben de makers van het corpus ook nog allerlei extra informatie toegevoegd die de computer kan gebruiken bij zijn analyse. In de metadata staat bijvoorbeeld waar de tekst vandaan komt of wie een bepaald fragment heeft ingesproken. Ook kunnen er annotaties zijn, waarin tot op de milliseconde nauwkeurig staat welke klank op welk moment in de opname wordt uitgesproken. Deze informatie kan de computer bijvoorbeeld gebruiken als hij spraak probeert te verstaan. Soms vind je in een corpus ook woordspecifieke annotaties zoals woordsoortinformatie, zodat de computer bijvoorbeeld weet dat ‘springt’ en ‘gesprongen’ allebei vervoegingen zijn van het werkwoord ‘springen’.

Naast een flink corpus gebruikt de computer vaak ook een grote woordenlijst, een lexicon (meervoud: lexica). Ook een lexicon bevat extra informatie. Bijvoorbeeld hoe het woord moet worden uitgesproken, zodat de computer de klanken die hij verstaat aaneen kan rijgen tot een bestaand woord. Of syntactische informatie, zodat hij precies weet welke plaats het woord in kan nemen in een zin. Welke informatie een lexicon bevat is afhankelijk van zijn toepassing. Een lexicon voor een spraakherkenner heeft uitspraakinformatie nodig, maar die voor een spellingscontrole heeft meer aan informatie over de woordvorm.

Voorwerk

Voor wetenschappers daadwerkelijk spraakherkenners, spellingscontroles of andere technologische toepassingen kunnen ontwikkelen, moet er dus al flink wat voorwerk gedaan zijn. De juiste corpora en lexica, instrumenten om de computer taal te leren, moeten al klaar liggen. Het kost veel tijd om deze bronmaterialen te ontwikkelen. Wetenschappers zijn er vaak jaren mee bezig.

Bij het Corpus Gesproken Nederlands werden alle woorden automatisch voorzien van woordsoortinformatie. Dit ging niet altijd foutloos. Studenten van de Radboud Universiteit keken de annotaties na en verbeterden ze als dat nodig was.

Een bekend Nederlands corpus is het Corpus Gesproken Nederlands. Dit corpus bestaat uit 33 dvd’s met daarop maar liefst 900 uur spraak. Deze spraak is overal opgenomen: in alle regio’s van Nederland en Vlaanderen, van gesprekjes aan de keukentafel tot het commentaar bij voetbalwedstrijden. Zo geeft het corpus een goed beeld van alle vormen van spraak in het Nederlands. Alle spraak in het CGN is uitgeschreven en alle woorden (zo’n 9 miljoen) zijn voorzien van hun woordsoort- en uitspraakinformatie. Delen van het corpus zijn ook van andere informatie (zoals syntaxis) voorzien. De ontwikkelaars zijn ruim 5 jaar met de opbouw van het CGN bezig geweest.

Een ander spraakcorpus met spraakopnames is het AUTONOMATA-namencorpus. In deze database staan zo’n 5.000 voorgelezen namen: voornamen, achternamen, plaatsnamen en straatnamen. Deze zijn voor een spraakherkenner vaak moeilijk te herkennen, omdat ze niet in zijn lexicon voorkomen. Ze kunnen bovendien vaak op verschillende manieren uitgesproken worden. Een spraakherkenner die is getraind met dit corpus zal minder problemen hebben met het herkennen van namen. Aan dit corpus hebben de ontwikkelaars zo’n 2 jaar gewerkt.

Recycling

Zoals je ziet kost het ontwikkelen van zulke bronmaterialen veel tijd en werk. De onderzoekers moeten de teksten en de spraak voor in de databank zorgvuldig selecteren. De databank moet immers een realistische afspiegeling zijn van de taal waarvoor hij is ontwikkeld. Vervolgens moet het corpus nog worden voorzien van metadata en aanvullende taalkundige informatie. Soms kan de computer dit automatisch, maar meestal komt het toch neer op mensenwerk. Medewerkers brengen handmatig alle annotaties aan of controleren de annotaties die de computer gemaakt heeft. Ten slotte moet het hele corpus in een toegankelijk systeem gegoten worden, zodat de wetenschappers het kunnen gebruiken om hun spraakherkenner of andere toepassing te ontwikkelen.

Al met al gaan er dus wel een paar jaar overheen voordat goed bronmateriaal voorhanden is. Dan pas kunnen de wetenschappers beginnen met de ontwikkeling van hun sprekende of luisterende computer. Gelukkig hoeft niet voor elke nieuwe toepassing nieuw bronmateriaal ontwikkeld te worden. Goed bronmateriaal kan gerecycled worden. Maar dan moet het wel echt goed materiaal zijn. Alleen goed gedocumenteerde corpora met voldoende tekst- of spraakfragmenten kunnen voor verschillende doeleinden gebruikt worden. Bovendien moet het materiaal wel te verkrijgen zijn voor andere onderzoekers.

TST-Centrale

In Nederland en Vlaanderen hebben wetenschappers veel bronmateriaal ontwikkeld, onder meer binnen het STEVIN-programma, een subsidieprogramma voor taal- en spraaktechnologie dat de Nederlandse en de Vlaamse overheden gezamenlijk financieren. Het AUTONOMATA-namencorpus is bijvoorbeeld het resultaat van een STEVIN-project. Na afloop van een STEVIN-project dragen de wetenschappers de resultaten over aan de Nederlandse Taalunie. Zij hebben in 2004 de TST-Centrale opgericht, de Centrale voor Taal- en Spraaktechnologie. De TST-Centrale zorgt er vervolgens voor dat iedereen van de ontwikkelde bronmaterialen gebruik kan maken.

De TST-Centrale is ondergebracht bij het Instituut voor Nederlandse Lexicologie, waar onder andere woordenboeken ontwikkeld worden. Zo kunnen taal- en spraaktechnologen voor hun bronmateriaal bij hen terecht. Ze stellen niet alleen lexica of corpora (zoals het CGN) beschikbaar, ook digitale woordenboeken of taalkundige software (zoals een spellingscontrole) zijn bij de TST-Centrale te verkrijgen. Afhankelijk van het soort gebruiker (commercieel of niet), moet voor het bronmateriaal worden betaald of is het gratis. Hierover maakt de TST-Centrale juridische afspraken met de Nederlandse Taalunie en de ontwikkelaars van het materiaal.

Dankzij initiatieven zoals STEVIN en de TST-Centrale hoeven onderzoekers niet elke keer zelf het wiel opnieuw uit te vinden. Als zij hun sprekende of luisterende computer taal willen leren, kunnen ze gebruik maken van de grote corpora en lexica die anderen eerder ontwikkeld hebben. Dat scheelt een hoop tijd en dus ook een hoop geld. Wel zo efficiënt.

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/stevin.atom", “max”=>"3", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 11 mei 2009
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.