Het is de grote valkuil voor veel bedrijven: zoveel terminologie gebruiken dat het voor een buitenstaander onmogelijk is om te begrijpen waar een brief of site over gaat. Soms schiet het gebruik van terminologie zelfs zo ver door dat zelfs het eigen personeel ervan in de war raakt. Het Amsterdamse bedrijf GridLine gaat daarom software ontwikkelen dat automatisch de vaktermen kan onderscheiden van gewone woorden. De software zal over ongeveer een jaar op de markt komen en gaat TermTreffer heten.

Woordenboekmakers en vertalers
Met TermTreffer kunnen bedrijven hun gebruik van terminologie automatisch in kaart brengen. Vervolgens kunnen ze makkelijk bekijken welke moeilijke woorden overbodig zijn en welke nu eenmaal noodzakelijk zijn. Aan deze laatste kunnen vervolgens definities worden gekoppeld zodat iedereen begrijpt wat ze betekenen. Dat is niet alleen handig voor het eigen personeel, ook woordenboekmakers en vertalers kunnen veel tijd besparen met zo’n automatisch aangemaakte jargonlijst.
Zonder dergelijke software voor terminologie-extractie moeten bedrijven nog handmatig te werk gaan, willen ze hun terminologie in kaart brengen. Een klus die veel tijd en geld kost, want er verschijnen erg veel vakteksten en bovendien verandert de terminologie regelmatig. De Nederlandse Taalunie zag in dat de selectie van van vaktermen wel geautomatiseerd móest worden en heeft daarom GridLine gevraagd de software te ontwikkelen. Alleen het corrigeren en bewerken van de geselecteerde vaktermen blijft dan nog voor mensen liggen.
Techniek
De terminologie-extractie van TermTreffer werkt via statistische methodes, regelgebaseerde taaltechnologie en machine learning. De software analyseert grote hoeveelheden tekst en voorziet deze van grammaticale aanduidingen, zoals bijvoorbeeld geslacht en vervoegingen. Vervolgens bekijkt de TermTreffer welke woorden met elkaar in verband staan, bijvoorbeeld qua vorm (afleidingen) of qua betekenis (synoniemen). Daarna worden op deze geanalyseerde teksten statistische en machine learning-methodes toegepast. Het resultaat is een lijst met woorden en uitdrukkingen die de terminologie vormen voor het onderwerp waar de verzameling teksten over ging. Tenslotte kan een redacteur deze lijst eventueel verder aanpassen via de bijgeleverde editors. Het is de eerste keer dat deze technieken specifiek voor het Nederlands ontwikkeld worden.
Lees ook:
- Klinkende taal van de ambtenaar (Kennislink)
- ‘Begrijpelijke’ taal soms te simpel (Kennislink)
- Leesbare notaris-akte zou verplicht moeten zijn (Kennislink)
- Website Gridline
Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/semantiek.atom", “max”=>"3", “detail”=>"normaal"}