Je leest:

De computer kan woorden voorspellen

De computer kan woorden voorspellen

Auteur: | 10 oktober 2008

Vandaag spreekt Antal van den Bosch aan de Universiteit van Tilburg zijn oratie uit. De nieuwe hoogleraar Geheugen, taal en betekenis legt hierin uit hoe een computer op basis van een groot aantal teksten woorden kan voorspellen. Het model werkt op basis van waarschijnlijkheid en begrijpt dus niet echt de grammatica en de betekenis van de taal.

De taal- en spraaktechnologie ontwikkelt meestal toepassingen die zijn gebaseerd op expliciete taalmodellen. Zo’n taalmodel is een schematische benadering van hoe een mens taal produceert en begrijpt. Als dit model perfect is, zal het alleen maar grammaticaal en inhoudelijk correcte zinnen produceren. Een taal heeft alleen meestal zóveel regels, en vaak nog meer uitzonderingen op die regels, dat het wetenschappers nog niet is gelukt zo’n perfect taalmodel te maken. En doordat het model niet perfect is, kan de techniek ook nog niet perfect werken.

Met het uitspreken van zijn oratie begint professor Antal van den Bosch vandaag officieel als hoogleraar Geheugen, taal en betekenis aan de Universiteit van Tilburg.

Antal van den Bosch pleit er vandaag in zijn inaugurele rede voor dat taal- en spraaktechnologen niet langer gebruik maken van expliciete taalmodellen, maar van impliciete taalmodellen die analoog redeneren. Bij analoog redeneren wordt gebruik gemaakt van informatie uit een grote collectie eerder verzamelde teksten. Als in die opgeslagen teksten bijvoorbeeld “terugwerkende” meestal gevolgd wordt door “kracht”, dan is de kans groot dat dit een volgende keer weer zo zal zijn.

Constructicon

Om zeker te kunnen zijn van zulke voorspellingen moet je beschikken over heel veel teksten. Deze teksten moet de computer eerst uitgebreid analyseren, waarbij hij een gigantische lijst maakt van alle rijtjes woorden die altijd opgevolgd worden door één specifiek woord of misschien zelfs wel meerdere woorden. Ieder woord kan verschillende keren in de lijst voorkomen, want woorden kunnen immers in veel verschillende contexten voorkomen. “Zeg” komt niet alleen voor in “kom nou zeg”, maar ook in “ik zeg maar zo” of “zeg eens” en in nog veel meer rijtjes woorden. Computers kunnen tegenwoordig heel makkelijk zo’n lijst samenstellen, opslaan en toegankelijk maken. De lijst lijkt een beetje op een woordenboek ( lexicon), maar dan van vaste zinsconstructies. Men noemt het daarom ook wel een constructicon.

Impliciete grammatica

Maar hoe goed kan zo’n systeem nou voorspellen hoe een zin afgemaakt moet worden? Dat hangt vooral af van de grootte van de collectie teksten waarop hij zijn voorspelling baseert. Voorlopig liggen de resultaten tussen de 6% en de 50% correct voorspelde woorden. Elke keer dat de hoeveelheid tekst in de database verdubbelt, stijgt dit percentage. Enerzijds komt deze stijging doordat de computer bekende zinsconstructies weer vaker tegen komt, zodat de kansverdeling uitgebreider wordt. Anderzijds zal hij in nieuwe teksten ook weer nieuwe woorden en nieuwe zinsconstructies tegenkomen, waardoor zijn lijst completer wordt.

In de informatica zijn de laatste decennia allerlei handige technieken ontwikkeld waardoor het maken van een constructicon een kleine moeite is.

De woorden die de computer het best voorspelt zijn over het algemeen woorden die vaak voorkomen. Daarvoor heeft hij immers de meeste statistieken en kan hij met de grootste zekerheid een keus maken. Bij woorden die fout gaan, valt echter op dat de computer wel al in de juiste richting zoekt. Als het systeem “tweede” voorspelt in plaats van “eerste”, is dat officieel fout, maar hij zit wel dicht in de buurt. Het systeem beschikt dan niet over expliciete grammaticale kennis zoals de ‘oude’ systemen, maar impliciet lijkt hij er toch heel wat van af te weten.

Voorspellen…en dan?

In de praktijk zal je niet vaak een systeem nodig hebben dat je zinnen af kan maken. Het door Antal van den Bosch voorgestelde systeem kan echter voor veel meer toepassingen gebruikt worden. Zo kan het dienen als spellingchecker door jouw tekst te vergelijken met zijn collectie. Grote kans dat jouw “ik wordt” fout is, als hij in zijn constructicon alleen maar “ik word” heeft staan. Als het systeem wordt uitgebreid met een groot aantal vertalingen tussen verschillende talen, kan de computer ook automatisch teksten gaan vertalen. Google heeft al een vertaaldienst opgezet dat volgens dit principe werkt. De nieuwe hoogleraar Van den Bosch is van plan om tijdens zijn ambt dit taalkundig model van analoog redeneren verder te ontwikkelen.

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/stevin.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 10 oktober 2008
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.