Je leest:

STEVIN 2004-2010

STEVIN 2004-2010

Zes jaar onderzoek en ontwikkeling in de taal- en spraaktechnologie

Auteur: | 16 december 2010

Eind 2010 maakt STEVIN, het Nederlands-Vlaamse stimuleringsprogramma voor de taal- en spraaktechnologie, de balans op. Is de toegekende subsidie goed besteed? Een overzicht — van de basis van het onderzoek tot aan de producten op de markt.

Een vriendelijk gezicht spreekt je toe vanaf een computerscherm. “Maakt u zich geen zorgen, uw klachten komen door een verkoudheid; dit gaat vanzelf over. Ik hoop dat u zich snel beter voelt.” Gerustgesteld verlaat je de huisartsenpraktijk en ga je naar huis, waar op jouw commando het koffiezetapparaat zijn werk doet. Je computer weet precies wat je interessant vindt en brengt je meteen van het laatste nieuws op de hoogte. Er is weer zo’n ellenlange mail van je moeder binnengekomen; gelukkig kan de computer deze even voor je samenvatten. Straks nog even op de thee bij de Chinese buurman. Vergeet je telefoon niet – deze kan alles in een flits vertalen.

Toekomstmuziek? In de jaren 90 dachten we dat we er nu ongeveer zo voor zouden staan. Het Vlaamse bedrijf Lernout & Hauspie is op dat moment wereldleider op het gebied van spraaktechnologie en laat de wereld versteld staan van de mogelijkheden. Helaas gaat het bedrijf ten onder aan boekhoudkundig gesjoemel en lijkt Vlaanderen haar koppositie te verliezen. Nederland en Vlaanderen bundelen echter hun krachten en krijgen in 2004 van hun overheden in totaal 11,4 miljoen euro. Het programma STEVIN houdt de daaropvolgende 6 jaar de ontwikkeling van Nederlandse taal– en spraaktechnologie in volle gang.

NEON is één van de projecten die binnen het STEVIN-programma gefinancierd zijn. De NEON-software kan automatisch tv-programma’s ondertitelen.

Veel taalvoorbeelden

“De directe aanleiding voor het STEVIN-programma was eigenlijk de grote vraag van onderzoekers naar geschreven taaldata”, aldus Jan Odijk, hoogleraar Taal- en Spraaktechnologie aan de Universiteit Utrecht en voorzitter van de STEVIN-programmacommissie. Een computer heeft zulke data nodig om te leren hoe de Nederlandse taal in elkaar zit. Welke woorden komen samen voor? En welke zinsconstructies zijn mogelijk? Wetenschappers ontwikkelen daarom grote databanken vol met taal. In SoNaR zit bijvoorbeeld heel veel geschreven taal in alle soorten en maten. En het CGN bevat juist gesproken taal van alle bevolkingsgroepen, ook van kinderen, ouderen en allochtonen. Zo’n database vol met taaldata heet in de taalkunde een corpus.

Wat wel en niet mag in taalgebruik is te ingewikkeld om helemaal vast te leggen in regels. Daarom kijkt de computer ook naar hoe echte mensen taal gebruiken. Als zij iets vaak op een bepaalde manier zeggen, kan de computer aannemen dat het correct Nederlands is. En als iets nooit voorkomt, is de kans groot dat het foutief taalgebruik is. Daarnaast kunnen corpora (het meervoud van corpus) ook gebruikt worden bij vertalingen. DPC bijvoorbeeld, een corpus van tien miljoen woorden met dezelfde teksten in het Nederlands, Engels en Frans. Op basis hiervan kan de computer ook zelfstandig teksten tussen deze talen vertalen.

  • D-coi – Voorbereiding op SoNaR
  • SoNaR – Corpus met 500 miljoen woorden geschreven Nederlands
  • Jasmin-CGN – Uitbreiding van CGN met kinderen, ouderen, allochtonen en spraak gericht aan computers
  • DPC – Parallel corpus met 10 miljoen woorden Nederlands, Engels en Frans
  • Cornetto – Nederlandse database met 40.000 items die de computer helpt om taal te begrijpen
  • Lassy – Corpus met syntactische annotaties

Labels

Maar met alleen een groot corpus is een computer er nog niet. Tekst is voor hem niks meer dan een bijna eindeloze rij eentjes en nulletjes zonder enige betekenis. Voor hij er iets zinnigs mee kan doen zal alle data dus moeten worden voorzien van speciale labels, de annotaties. Op zo’n label kan bijvoorbeeld staan of het om een zelfstandig naamwoord of een werkwoord gaat, of hoe het woord klinkt als je het uitspreekt. Een beetje corpus bestaat uit duizenden tot miljoenen woorden – een flinke klus als je die allemaal met de hand van labels zou moeten voorzien. Gelukkig bestaat er speciale software die dit voor je doet, bijvoorbeeld door zinnen automatisch te ontleden of de uitspraak automatisch af te leiden van de spelling. Ook binnen het STEVIN-programma zijn zulke programma’s ontwikkeld.

Nu alle woorden in het corpus zijn voorzien van de juiste labels, kan de computer er pas echt mee aan de slag. Onderzoekers hebben binnen het STEVIN-programma verschillende programma’s ontwikkeld die data kunnen analyseren op specifieke taalkundige kenmerken. Zo kan het ene programma meerwoordige uitdrukkingen herkennen, en het andere herkent verwijzingen of inhoudelijke overlap.

  • Corea – Vindt verwijzingen binnen een tekst
  • IRME – Vindt meerwoordige uitdrukkingen in teksten
  • DAESO – Detecteert overlap in betekenis tussen teksten, handig bij automatisch samenvatten

Gadgets

Meerwoordige uitdrukkingen, verwijzingen, inhoudelijke overlap? Allemaal erg knap van de computer, maar wat heb jij daar aan in het dagelijks leven? Nou, heel erg veel. Dankzij zulke software kunnen ook specifieke toepassingen gebouwd worden, zoals een automatische samenvatter, vertaalsoftware of een tool die het online imago van een bedrijf of product in de gaten kan houden. Ook kan software met enige kennis van het Nederlands ook zoekmachines verbeteren of teksten controleren op wollig taalgebruik.

Dat zijn allemaal hele leuke gadgets, maar binnen STEVIN zijn ook enkele programma’s ontwikkeld die bijna onmisbaar zijn voor sommige mensen. Zo kunnen mensen met dyslexie gebruik maken van een speciaal voor hen ontwikkelde spellingchecker of zelfcorrigerende woordvoorspeller. En met een speciale plug-in kunnen msn-gebruikers vragen over spelling stellen aan een chatbot. Sommige mensen hebben zoveel last van dyslexie dat het lezen van een krant praktisch onmogelijk is. Voor hen, en voor mensen die blind of slechtziend zijn, is er een krant ontwikkeld die dagelijks wordt voorgelezen door de computer.

Luisterende computers

De meeste mensen denken bij de term ‘spraak- en taaltechnologie’ vooral aan spraakherkenners, computers die mensen kunnen verstaan. Ook daar hebben de onderzoekers binnen het STEVIN-programma zich uitgebreid mee bezig gehouden. “Veel mensen hebben nog altijd het beeld dat spraakherkenning niet werkt, maar dat is puur gebaseerd op oude toepassingen toen de techniek nog niet goed genoeg was”, aldus Jan Odijk. “Het werkt nu nog steeds niet perfect maar wel goed genoeg om bijvoorbeeld gesproken teksten te doorzoeken of teksten te dicteren.” Speciale software die achtergrondgeluiden wegfiltert en namen van plaatsen en personen kan herkennen hebben de prestaties van spraakherkenners flink verbeterd. Al deze vooruitgang komt samen in Spraak, een open-source pakket waarmee elke programmeur een spraakherkenner in zijn applicatie kan bouwen.

  • Midas – Dealt met storende achtergrondgeluiden en ruis
  • AUTONOMATA – Helpt bij het automatisch uitspreken van namen
  • Spraak – een open-source spraakherkenner
  • N-best – Evaluatietool om spraakherkenners te testen

De spraak- en taaltechnologen van STEVIN hebben niet alleen spraakherkenners verbeterd, ze hebben er ook nieuwe toepassingen voor ontwikkeld. Bijvoorbeeld een computerprogramma waarbij leerders van het Nederlands hun uitspraak kunnen oefenen. Of een telefonische dienst die onderzoekt of sollicitanten geschikt zijn voor een functie op een helpdesk. Of wat dacht je van een tool die automatisch televisieprogramma’s kan ondertitelen? En zo zijn de mogelijkheden voor het toepassen van technieken uit de spraak- en taaltechnologie eindeloos.

STEVIN heeft haar subsidie duidelijk goed besteed. En wat nu? “De ontwikkelingen in de spraak- en taaltechnologie zullen nu niet direct stil komen te liggen”, aldus Odijk. “Maar we hopen wel op een vervolg.” Odijk ziet de rol die deze technieken kunnen spelen in de toekomst namelijk alleen maar groter worden. “Niet alleen voor het bedrijfsleven, maar ook in het onderwijs of de zorg.” Ouderen zouden bijvoorbeeld dankzij verschillende toepassingen misschien langer zelfstandig kunnen wonen. Wellicht is een bezoekje aan een virtuele huisarts nog niet eens zo heel ver gezocht.

Lees ook:

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 16 december 2010
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.