Je leest:

Computers eerste woordjes

Computers eerste woordjes

Een bed is iets heel anders dan een bad, maar is bijna synoniem met ledikant. Voor een zoekprogramma als Google en vragendiensten als [email protected] is het van levensbelang dat ze deze relaties herkennen. Promovenda Lonneke van der Plas van de Rijksuniversiteit Groningen ontwikkelde een systeem waarmee computers automatisch de relaties tussen woorden kunnen leren. Het resultaat van haar onderzoek vatte zij samen op een interactieve website.

De woorden ‘herfst’ en ‘najaar’ hebben dezelfde betekenis, ‘Parijs’ verwijst naar een stad en het woord ‘feest’ roept bij mensen woorden als ‘wijn’ en ‘plezier’ op. Mensen verwerven dit soort van informatie, zoals synoniemen, eigennamen en assocaties, gedurende hun leven simpelweg door taal te gebruiken. Ook voor een computersysteem is het mogelijk om relaties tussen woorden, zoals synoniemie (herfst-najaar) en co-hyponiemie (appel-sinaasappel) automatisch uit tekst te leren. De soort van informatie die opgeleverd wordt hangt wel af van de methode die gebruikt wordt. Promovenda Lonneke van der Plas deed onderzoek naar dergelijke systemen.

‘Frankrijk’ en ‘wijn’ horen in ons hoofd bij elkaar. Nieuw onderzoek leert computers ook om deze twee woorden aan elkaar te koppelen, bijvoorbeeld doordat ze vaak naast elkaar in een tekst staan.

500 miljoen woorden

Van der Plas gebruikt in haar methode drie manieren om lexicaal-semantische informatie te vergaren: een op syntaxis gebaseerde methode, die woorden als baby en zoon aan elkaar koppelt, een meertalige op vertaalrelaties gebaseerde methode, die woorden als baby en kind aan elkaar koppelt, en een methode waarbij gekeken wordt naar de nabijheid van woorden in een tekst. De laatste verbindt woorden als baby en huilen met elkaar. Om de methode te ontwikkelen liet Van der Plas haar computers onder meer een Nederlandse krantendatabase van meer dan 500 miljoen woorden scannen. De drie methoden zijn bedoeld om elkaar aan te vullen wat betreft het soort data dat gebruikt wordt en het type informatie dat ze opleveren.

Voor veel computerapplicaties die taal gebruiken, zoals zoekmachines en programma’s die vragen van gebruikers beantwoorden, is informatie over relaties tussen woorden erg belangrijk. Bijvoorbeeld om te herkennen dat een bepaalde betekenis kan worden afgeleid uit verschillende tekstvarianten. Wanneer een gebruiker het woord ‘rijwiel’ als zoekterm intypt in een zoekmachine als Google, is een uitbreiding met een synoniem als ‘fiets’ noodzakelijk om niet het merendeel van de gewenste informatie te missen.

Kijk en vergelijk

Het resultaat van het onderzoek van Van der Plas is terug te zien in een demo op het internet, waar de gebruiker een woord kan intypen. Het systeem geeft de gebruiker een lijst van gelijkende woorden, die het automatisch geleerd heeft door de syntactische contexten van woorden te vergelijken. Met andere woorden: kijk en vergelijk.

Externe links

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/semantiek.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van Rijksuniversiteit Groningen (RUG).
© Rijksuniversiteit Groningen (RUG), alle rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 15 oktober 2008

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.