De woorden ‘herfst’ en ‘najaar’ hebben dezelfde betekenis, ‘Parijs’ verwijst naar een stad en het woord ‘feest’ roept bij mensen woorden als ‘wijn’ en ‘plezier’ op. Mensen verwerven dit soort van informatie, zoals synoniemen, eigennamen en assocaties, gedurende hun leven simpelweg door taal te gebruiken. Ook voor een computersysteem is het mogelijk om relaties tussen woorden, zoals synoniemie (herfst-najaar) en co-hyponiemie (appel-sinaasappel) automatisch uit tekst te leren. De soort van informatie die opgeleverd wordt hangt wel af van de methode die gebruikt wordt. Promovenda Lonneke van der Plas deed onderzoek naar dergelijke systemen.
‘Frankrijk’ en ‘wijn’ horen in ons hoofd bij elkaar. Nieuw onderzoek leert computers ook om deze twee woorden aan elkaar te koppelen, bijvoorbeeld doordat ze vaak naast elkaar in een tekst staan.
500 miljoen woorden
Van der Plas gebruikt in haar methode drie manieren om lexicaal-semantische informatie te vergaren: een op syntaxis gebaseerde methode, die woorden als baby en zoon aan elkaar koppelt, een meertalige op vertaalrelaties gebaseerde methode, die woorden als baby en kind aan elkaar koppelt, en een methode waarbij gekeken wordt naar de nabijheid van woorden in een tekst. De laatste verbindt woorden als baby en huilen met elkaar. Om de methode te ontwikkelen liet Van der Plas haar computers onder meer een Nederlandse krantendatabase van meer dan 500 miljoen woorden scannen. De drie methoden zijn bedoeld om elkaar aan te vullen wat betreft het soort data dat gebruikt wordt en het type informatie dat ze opleveren.
Voor veel computerapplicaties die taal gebruiken, zoals zoekmachines en programma’s die vragen van gebruikers beantwoorden, is informatie over relaties tussen woorden erg belangrijk. Bijvoorbeeld om te herkennen dat een bepaalde betekenis kan worden afgeleid uit verschillende tekstvarianten. Wanneer een gebruiker het woord ‘rijwiel’ als zoekterm intypt in een zoekmachine als Google, is een uitbreiding met een synoniem als ‘fiets’ noodzakelijk om niet het merendeel van de gewenste informatie te missen.
Kijk en vergelijk
Het resultaat van het onderzoek van Van der Plas is terug te zien in een demo op het internet, waar de gebruiker een woord kan intypen. Het systeem geeft de gebruiker een lijst van gelijkende woorden, die het automatisch geleerd heeft door de syntactische contexten van woorden te vergelijken. Met andere woorden: kijk en vergelijk.
Zie verder op Kennislink
- Vertrouwen op een blinde scheidsrechter
- Breintaal
- De computer schakelt je door (spraakherkenning)
- Onderzoek uitgelicht: informaticus Theo Gevers (zoeken naar filmpjes op het internet)
- De computer begrijpt je in Web3.0
Externe links
- Demo van het onderzoek
- De website van Lonneke van der Plas, met proefschrift (Engels)
- IMIX, het Nederlandse onderzoeksprogramma naar taal- en spraaktechnologie
Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/semantiek.atom", “max”=>"5", “detail”=>"normaal"}