
Een voorbeeld: wat zijn de betekenisdragende eenheden van taal? Theoretische taalwetenschappers zoeken het antwoord in een systeem dat uitgaat van woorden en een grammaticaal regelsysteem. Maar een vertaalprogramma dat leert uit vertalingen en verder geen taalkundige kennis krijgt aangereikt, ontdekt dat taal ook uit andere elementen is opgebouwd.
“Als je onder de motorkap van zo’n programma kijkt, vallen veelvoorkomende woordcombinaties op die samen een specifieke betekenis hebben. Zoals een eigen huis, waarmee een koophuis bedoeld wordt. Dat staat er niet, maar dat betekent het wel. Die betekenis is niet af te leiden uit losse woorden of grammaticale regels. Taaltechnologie toont hier aan dat de betekenis van taal voor een belangrijk deel in woordgroepen zit verpakt.”
Vruchtbare tegenstelling
Taaltechnologie krijgt wel eens het verwijt een extreem datagedreven wetenschapsgebied te zijn: je hebt een databerg, daar laat je wat zoekvragen op los en allicht komt er dan een antwoord uit. Bovenstaand voorbeeld is er één dat duidelijk maakt hoe Van den Bosch naar de tegenstelling tussen theoretici en datagedreven onderzoekers kijkt. Hij vindt die “wezenlijker voor de wetenschap dan die tussen alfa’s en bèta’s. En vruchtbaarder: want de ene onderzoeker die wil bewijzen dat zijn theorie klopt en de andere die onbevooroordeeld naar de data wil kijken, dagen elkaar uit en stimuleren elkaar.”
Zelf promoveerde hij na studies Taal- en literatuurwetenschap en Informatica op een onderzoek over woorduitspraak: hij ‘trainde’ de computer om nieuwe woorden uit te spreken op grond van verschillende theorieën en concludeerde dat de computer met minder theorie tot betere resultaten kwam.
Stakingen, Rembrandt, dreigtweets…
De laatste jaren werkt Van den Bosch aan slimme zoeksystemen waar niet alleen taalkundigen wat aan hebben. “Veel wetenschap, zeker geesteswetenschap, draait om tekst. Veel tekst. Onderzoekers zitten met de vraag: hoe doorzoek je die snel en goed?” Samen met collega’s Bedrijfscommunicatie onderzoekt Van den Bosch de komende jaren welke gezondheidsbevorderende communicatie goed, beter of juist helemaal niet overkomt en overgenomen wordt. Met het Internationaal Instituut voor Sociale Geschiedenis (IISG) werkt hij aan een zoekfilter waarmee historici die onderzoek doen naar stakingen, ook arbeidsconflicten kunnen opsporen die net niet tot staking hebben geleid.

En met onder andere de afdeling Kunstgeschiedenis van de Radboud Universiteit werkten de Nijmeegse taaltechnologen afgelopen jaar samen aan RemDoc, een digitale omgeving waarin onderzoekers elke snipper tekst over Rembrandt kunnen raadplegen. Gesprekken over een vergelijkbaar systeem voor teksten over Jheronimus Bosch worden momenteel gevoerd.
Daarnaast werken Van den Bosch en collega’s op dit moment met het ANP aan een zoeksysteem dat twitterberichten kan doorzoeken op signalen die voorspellen wat nieuws kan worden. En met het Korps Landelijke Politiediensten (KLPD) wordt een zoeksysteem naar dreigtweets ontwikkeld.
Antal van den Bosch spreekt zijn oratie ‘Taal in uitvoering’ uit op vrijdag 9 november 2012, om 15.45 uur precies, in de Aula Radboud Universiteit, Comeniuslaan 2, Nijmegen
Zie ook:
Hacktivist: gastcolumn Antal van den Bosch (16-12-2010)
Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/taaltechnologie.atom", “max”=>"5", “detail”=>"normaal"}