Je leest:

Computer herkent definities in teksten

Computer herkent definities in teksten

Auteur: | 23 juni 2010

Als je aan het studeren bent, is het vaak handig om een lijst met definities bij de hand te hebben om de betekenis van moeilijke woorden op te zoeken. Promovenda Eline Westerhout ontwikkelde software die automatisch zo’n lijst samenstelt.

In veel studieboeken kom je het tegen, helemaal achterin, meestal net voor de index: het glossarium. Dat is een lijst met definities van alle moeilijke woorden die in het boek voorkomen. Tegenwoordig zijn veel leerteksten digitaal en is het theoretisch dus mogelijk om een computer zo’n glossarium automatisch te laten samenstellen op basis van de tekst. Eline Westerhout, onderzoekster aan de Universiteit Utrecht, heeft de laatste vier jaar gewerkt aan de ontwikkeling van software die dit kan. Vrijdag 2 juli zal zij promoveren op haar proefschrift waarin zij dit onderzoek beschrijft.

Patronen

Wij zien meteen dat de tweede zin van dit artikel een definitie geeft voor het woord ‘glossarium’ uit de eerste zin. Maar voor een computer is dit een stuk minder eenvoudig: hij weet niet dat woorden een betekenis hebben en ook niet hoe verschillende woorden zich tot elkaar verhouden. Westerhout maakt daarom in haar onderzoek niet gebruik van de semantische eigenschappen van een tekst, maar kijkt naar de meetbare eigenschappen, zoals patronen, hoeveelheden en lay-out. “Deze zijn voor een computerprogramma makkelijker te detecteren”, aldus Westerhout.

Een steeds terugkerend patroon in een definitie is de aanwezigheid van het begrip dat gedefinieerd wordt, de definitie van dat begrip en een connector die deze twee met elkaar verbindt. Westerhout onderscheidt op basis van verschillende connectoren vier verschillende typen definities. Ten eerste staat er vaak ‘is’ tussen het begrip en de definitie. Ook andere werkwoorden, zoals ‘omvat’ of ‘betekent’, duiden op een definitie. Daarnaast geeft de interpunctie soms een aanwijzing: een dubbele punt wijst vaak -met name in lijsten- op een definitie. Ten slotte kan ook een voornaamwoord (bijvoorbeeld ‘Dat is…’) voorkomen in een definitie. De computer kan in een tekst naar deze patronen zoeken om definities te vinden.

e-Learning

Echter, als de computer alleen op deze patronen af zou gaan, zou hij ook veel andere zinnen als definitie aanmerken. Westerhout laat de software daarom ook naar andere eigenschappen kijken, zoals de positie en lay-out. Definities komen meestal voor aan het begin van een paragraaf en de gedefinieerde term wordt meestal pas vaker in de tekst gebruikt als de definitie al is gegeven. Bovendien krijgen definities in veel studieteksten een speciale opmaak mee; daar kan de computer handig gebruik van maken. “Met een machine learning methode probeert de software op basis van deze eigenschappen een classificeerder te bouwen die definities onderscheidt van niet-definities”, legt Westerhout uit. Met deze software kan een computer ongeveer 63% van de definities in een tekst herkennen. “Hoewel er ook een aantal niet-definities wordt geëxtraheerd, is het voor de gebruiker een eenvoudige taak om de correcte definities te selecteren en op deze manier semi-automatisch een glossarium te creëren.”

Westerhout ziet verschillende mogelijke toepassingen voor haar definitie-extractiemethode. “In mijn proefschrift beschrijf ik dat deze methode goed van pas kan komen binnen e-learning”, vertelt de promovenda. “Hierbij moeten de definities bij voorkeur uit de eigen leertekst gehaald worden. Een andere mogelijke toepassing is het samenstellen van woordenboeken. Als je simpelweg de eerste zin van een Wikipedia-artikel neemt, heb je vrijwel altijd een ‘is’-definitie. Mijn methode zal meer en anderssoortige informatie geven, zoals waar een bepaald programma voor gebruikt wordt.”

Eline Westerhout verdedigt vrijdag 2 juli haar proefschrift ‘Definition extraction for glossary creation – A study on extracting definitions for semi-automatic glossary creation in Dutch’ aan de Universiteit Utrecht.

Lees verder:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/semantiek.atom", “max”=>"3", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 23 juni 2010
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.