Je leest:

Software onderscheidt terminologie in teksten

Software onderscheidt terminologie in teksten

Auteur: | 15 juni 2010

In veel bedrijven gaan zoveel vaktermen om dat werknemers op den duur zelf door de bomen het bos niet meer zien. Het Amsterdamse bedrijf Gridline gaat daarom in opdracht van de Nederlandse Taalunie software ontwikkelen die automatisch het jargon uit een tekst haalt. Vervolgens kan het bedrijf zelf beslissen of het aangepast moet worden.

Het is de grote valkuil voor veel bedrijven: zoveel terminologie gebruiken dat het voor een buitenstaander onmogelijk is om te begrijpen waar een brief of site over gaat. Soms schiet het gebruik van terminologie zelfs zo ver door dat zelfs het eigen personeel ervan in de war raakt. Het Amsterdamse bedrijf GridLine gaat daarom software ontwikkelen dat automatisch de vaktermen kan onderscheiden van gewone woorden. De software zal over ongeveer een jaar op de markt komen en gaat TermTreffer heten.

Woordenboekmakers en vertalers

Met TermTreffer kunnen bedrijven hun gebruik van terminologie automatisch in kaart brengen. Vervolgens kunnen ze makkelijk bekijken welke moeilijke woorden overbodig zijn en welke nu eenmaal noodzakelijk zijn. Aan deze laatste kunnen vervolgens definities worden gekoppeld zodat iedereen begrijpt wat ze betekenen. Dat is niet alleen handig voor het eigen personeel, ook woordenboekmakers en vertalers kunnen veel tijd besparen met zo’n automatisch aangemaakte jargonlijst.

Zonder dergelijke software voor terminologie-extractie moeten bedrijven nog handmatig te werk gaan, willen ze hun terminologie in kaart brengen. Een klus die veel tijd en geld kost, want er verschijnen erg veel vakteksten en bovendien verandert de terminologie regelmatig. De Nederlandse Taalunie zag in dat de selectie van van vaktermen wel geautomatiseerd móest worden en heeft daarom GridLine gevraagd de software te ontwikkelen. Alleen het corrigeren en bewerken van de geselecteerde vaktermen blijft dan nog voor mensen liggen.

Techniek

De terminologie-extractie van TermTreffer werkt via statistische methodes, regelgebaseerde taaltechnologie en machine learning. De software analyseert grote hoeveelheden tekst en voorziet deze van grammaticale aanduidingen, zoals bijvoorbeeld geslacht en vervoegingen. Vervolgens bekijkt de TermTreffer welke woorden met elkaar in verband staan, bijvoorbeeld qua vorm (afleidingen) of qua betekenis (synoniemen). Daarna worden op deze geanalyseerde teksten statistische en machine learning-methodes toegepast. Het resultaat is een lijst met woorden en uitdrukkingen die de terminologie vormen voor het onderwerp waar de verzameling teksten over ging. Tenslotte kan een redacteur deze lijst eventueel verder aanpassen via de bijgeleverde editors. Het is de eerste keer dat deze technieken specifiek voor het Nederlands ontwikkeld worden.

Lees ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/semantiek.atom", “max”=>"3", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 15 juni 2010
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.