Je leest:

Taaltechnologie helpt wetenschap met beter zoeken en meer vinden

Taaltechnologie helpt wetenschap met beter zoeken en meer vinden

Antal van den Bosch, hoogleraar Example-based language modelling aan de Radboud Universiteit Nijmegen, ontwikkelt taaltechnologie zoals vertaalprogramma’s, spellingscorrectoren en zoekmachines. Systemen die zo slim zijn, dat ze nieuwe inzichten opleveren voor de taalwetenschap en andere wetenschapsgebieden. Vrijdag 9 november spreekt Van den Bosch zijn oratie uit, getiteld Taal in uitvoering.

Small
Antal van den Bosch, hoogleraar Example-based language modelling, RU Nijmegen.

Een voorbeeld: wat zijn de betekenisdragende eenheden van taal? Theoretische taalwetenschappers zoeken het antwoord in een systeem dat uitgaat van woorden en een grammaticaal regelsysteem. Maar een vertaalprogramma dat leert uit vertalingen en verder geen taalkundige kennis krijgt aangereikt, ontdekt dat taal ook uit andere elementen is opgebouwd.

“Als je onder de motorkap van zo’n programma kijkt, vallen veelvoorkomende woordcombinaties op die samen een specifieke betekenis hebben. Zoals een eigen huis, waarmee een koophuis bedoeld wordt. Dat staat er niet, maar dat betekent het wel. Die betekenis is niet af te leiden uit losse woorden of grammaticale regels. Taaltechnologie toont hier aan dat de betekenis van taal voor een belangrijk deel in woordgroepen zit verpakt.”

Vruchtbare tegenstelling

Taaltechnologie krijgt wel eens het verwijt een extreem datagedreven wetenschapsgebied te zijn: je hebt een databerg, daar laat je wat zoekvragen op los en allicht komt er dan een antwoord uit. Bovenstaand voorbeeld is er één dat duidelijk maakt hoe Van den Bosch naar de tegenstelling tussen theoretici en datagedreven onderzoekers kijkt. Hij vindt die “wezenlijker voor de wetenschap dan die tussen alfa’s en bèta’s. En vruchtbaarder: want de ene onderzoeker die wil bewijzen dat zijn theorie klopt en de andere die onbevooroordeeld naar de data wil kijken, dagen elkaar uit en stimuleren elkaar.”

Zelf promoveerde hij na studies Taal- en literatuurwetenschap en Informatica op een onderzoek over woorduitspraak: hij ‘trainde’ de computer om nieuwe woorden uit te spreken op grond van verschillende theorieën en concludeerde dat de computer met minder theorie tot betere resultaten kwam.

Stakingen, Rembrandt, dreigtweets…

De laatste jaren werkt Van den Bosch aan slimme zoeksystemen waar niet alleen taalkundigen wat aan hebben. “Veel wetenschap, zeker geesteswetenschap, draait om tekst. Veel tekst. Onderzoekers zitten met de vraag: hoe doorzoek je die snel en goed?” Samen met collega’s Bedrijfscommunicatie onderzoekt Van den Bosch de komende jaren welke gezondheidsbevorderende communicatie goed, beter of juist helemaal niet overkomt en overgenomen wordt. Met het Internationaal Instituut voor Sociale Geschiedenis (IISG) werkt hij aan een zoekfilter waarmee historici die onderzoek doen naar stakingen, ook arbeidsconflicten kunnen opsporen die net niet tot staking hebben geleid.

Rembrandt van rijn self portrait with a cap openmouthed
Radboud Universiteit

En met onder andere de afdeling Kunstgeschiedenis van de Radboud Universiteit werkten de Nijmeegse taaltechnologen afgelopen jaar samen aan RemDoc, een digitale omgeving waarin onderzoekers elke snipper tekst over Rembrandt kunnen raadplegen. Gesprekken over een vergelijkbaar systeem voor teksten over Jheronimus Bosch worden momenteel gevoerd.

Daarnaast werken Van den Bosch en collega’s op dit moment met het ANP aan een zoeksysteem dat twitterberichten kan doorzoeken op signalen die voorspellen wat nieuws kan worden. En met het Korps Landelijke Politiediensten (KLPD) wordt een zoeksysteem naar dreigtweets ontwikkeld.

Antal van den Bosch spreekt zijn oratie ‘Taal in uitvoering’ uit op vrijdag 9 november 2012, om 15.45 uur precies, in de Aula Radboud Universiteit, Comeniuslaan 2, Nijmegen

Zie ook:

Hacktivist: gastcolumn Antal van den Bosch (16-12-2010)

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/taaltechnologie.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van Radboud Universiteit Nijmegen.
© Radboud Universiteit Nijmegen, alle rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 06 november 2012

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

LEES EN DRAAG BIJ AAN DE DISCUSSIE