Je leest:

Computer herkent inhoudelijke overlap

Computer herkent inhoudelijke overlap

Auteur: | 20 december 2010

Verschillende kranten publiceren vaak over dezelfde onderwerpen — in nèt even andere bewoordingen. Tilburgse onderzoekers hebben een dataset van meer dan twee miljoen woorden ontwikkeld waarmee een computer deze inhoudelijke overlap kan herkennen. Handig voor zoekmachines, of voor software die moet kunnen samenvatten.

Vergelijk de volgende twee krantenberichten, uit respectievelijk het NRC Handelsblad en de Telegraaf:

De 44-jarige Steve Irwin –-bekend door zijn tv-programma’s over dieren-– stierf maandagmiddag (plaatselijke tijd) nadat hij tijdens het duiken voor de Australische noordoostkust bij Port Douglas in zijn borstkas wordt gestoken door een giftige pijlstaartrog.

Steve Irwin, de Australische televisiepresentator die bekend is als The Crocodile Hunter, is maandag overleden nadat hij tijdens een duikexpeditite was gestoken door een pijlstaartrog.

De twee zinnen beschrijven dezelfde gebeurtenis, maar doen dat met behulp van bijna volledig verschillende bewoordingen. Een computer die alleen naar de woorden kijkt zal niet herkennen dat ze beide over hetzelfde onderwerp gaan. Wie op het internet zou zoeken naar informatie over ‘de dood van de Crocodile Hunter’, krijgt daarom alleen het Telegraafbericht –- terwijl een zoekmachine die de inhoudelijke overlap wel herkent, beide artikelen kan aanbieden.

Specifieker

Onderzoekers van het Tilburgse Instituut voor Cognitie en Communicatie (TiCC) aan de Universiteit van Tilburg hebben een grote dataverzameling aangemaakt die een computer kan gebruiken bij het herkennen van dergelijke inhoudelijke overlap. Deze databank van meer dan twee miljoen woorden bevat vele Nederlandse tekstparen die steeds over hetzelfde onderwerp gaan. Dit zijn niet alleen nieuwsberichten, maar ook vertalingen van dezelfde tekst. In eerste instantie moesten de onderzoekers handmatig aangeven waar de inhoudelijke overlap precies zat.

Later hebben ze ook een tool gebouwd die de overlap automatisch kan detecteren. Deze software kijkt niet alleen naar wèlke zinnen in de teksten inhoudelijk dezelfde betekenis hebben, maar ook naar hoe de verschillende zinnen met elkaar samenhangen. Zo is de tekst van het NRC Handelsblad hierboven veel specifieker dan die van de Telegraaf.

Plagiaat

De mogelijkheden van een computer die inhoudelijke overlap kan herkennen zijn groot. Zoekmachines kunnen ook pagina’s aanbieden waar niet exact jouw zoektermen in staan, maar die wel over hetzelfde onderwerp gaan. Vraag-antwoordsystemen kunnen je vraag beantwoorden, ook al heb je je vraag niet precies in de juiste bewoordingen gesteld. En grote tekstbestanden kan zo’n computer automatisch voor je samenvatten. “Helemaal ideaal is de mogelijkheid van zinsfusie”, vertelt hoogleraar Emiel Krahmer, betrokken bij het project. “Deze tool kan niet alleen vaststellen dat twee zinnen grofweg dezelfde informatie bevatten, maar is ook in staat om de inhoud van de verschillende zinnen samen te voegen tot één nieuwe zin. Zo kan je razendsnel de relevante informatie halen uit grote hoeveelheden tekst.”

Dat is niet alleen handig voor mensen die snel informatie willen vinden in grote tekstbestanden zoals Google Books of Wikileaks. Krahmer ziet meer mogelijkheden, bijvoorbeeld in de journalistiek. “Maar denk ook aan het opsporen van plagiaat. Vaak wordt bij plagiaat niet zo maar een tekst gekopieerd, maar enigszins geparafraseerd. Met deze dataset zou een zoeksysteem dat kunnen detecteren.”

Lees ook:

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 20 december 2010

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.