Je leest:

Samenvattingen van je computer

Samenvattingen van je computer

Auteur: | 7 februari 2010

Tijdens je middelbareschooljaren besteed je er vele uren aan: samenvattingen schrijven. Hoofdzaken van bijzaken leren onderscheiden, deze verwerken in een samenhangende tekst en vervolgens nog eens de woorden tellen. Gezien de gigantische hoeveelheid online teksten zou het handig zijn als de computer het ook kon.

En dat is precies waar taaltechnologen al vele jaren aan werken. Iris Hendrickx is er één van. Sinds kort werkt ze aan de Universiteit van Lissabon, maar hiervoor werkte ze aan de Universiteit van Antwerpen mee aan DAESO, een STEVIN -onderzoeksproject dat zich richtte op automatisch samenvatten. “Voor een goede samenvatting moet een computer de tekst volledig begrijpen en daar een globale, ingekorte representatie van kunnen geven”, aldus Iris Hendrickx.

Iris Hendrickx heeft meegewerkt aan DAESO, een onderzoeksproject dat zich bezighield met automatisch samenvatten. Tegenwoordig werkt ze aan de Universiteit van Lissabon.

Abstractie of extractie

Dat lijkt misschien eenvoudig, maar is het bepaald niet. Voor een computer is een tekst niks meer dan een reeks enen en nullen; hij heeft geen idee dat deze ook nog een betekenis hebben. Laat staan wélke betekenis dat dan precies is. Toch zijn er manieren om een computergegenereerde samenvatting te ontwikkelen. De manier die Hendrickx zojuist beschreef heet abstractie. De computer moet hiervoor natuurlijke taal kunnen begrijpen én hij zal zelf taal moeten kunnen produceren. Een andere manier van samenvatten heet extractie. Hierbij selecteert de computer de belangrijkste zinnen uit een tekst en plakt deze vervolgens samen tot een nieuwe, kortere tekst. De computer hoeft dan de tekst niet echt te begrijpen en hij hoeft geen zinnen zelf te formuleren.

“Omdat het op dit moment nog niet haalbaar is om systemen te bouwen die een tekst volledig kunnen begrijpen, gebruiken de huidige automatische samenvattingssystemen bijna allemaal extractie-methoden in plaats van abstractie”, legt Hendrickx uit. Ook het DEASO-systeem waar zij voor het Nederlands aan werkte gebruikt deze methode. “Het cruciale punt voor deze methode is natuurlijk het meten welke zinnen belangrijk zijn in een tekst.” Een samenvattingssysteem gebruikt hiervoor een statistische aanpak waarbij hij kijkt naar verschillende aspecten van de tekst.

Frequentie

Hij kan bijvoorbeeld de positie van een zin of alinea in een tekst gebruiken. De eerste en de laatste zin of alinea zijn vaak inhoudelijk het belangrijkst. Een andere aanwijzing voor een belangrijke zin kunnen zogenaamde cue phrases zijn. Dit zijn bepaalde woorden of zinsdelen die erop wijzen dat er iets essentieels gezegd gaat worden. Na een zinsdeel als “Hiermee wil ik aantonen dat…” komt meestal de kern van het verhaal. De cue phrase geeft de computer een hint: nu komt er iets belangrijks!

Woorden die onverwacht vaak voorkomen in een tekst kunnen je al een goed beeld geven van het onderwerp van de tekst. De site Wordle maakt deze berekening voor je en maakt er vervolgens een mooi kunstwerk van. Hoe vaker een woord voorkomt in je tekst, hoe groter hij in de afbeelding verschijnt. Wordle corrigeert hierbij automatisch voor hoogfrequente woorden als ‘de’ of ‘en’.

Het samenvattingssysteem kan ook kijken naar hoe vaak de verschillende woorden in een tekst voorkomen. Woorden als ‘de’, ‘op’ of ‘en’ komen meestal vaak voor in teksten, maar wanneer woorden als ‘apotheek’ of ‘klimaatverandering’ ineens onverwacht veel voorkomen in een tekst, wijst dat erop dat deze woorden het onderwerp van de tekst vormen. De zinnen waar ze in voorkomen kunnen dan bruikbaar zijn voor de samenvatting. Om te weten hoe vaak verschillende woorden gemiddeld in het Nederlands voorkomen bestaan speciale frequentielijsten. De computer kan de woordfrequenties uit de samen te vatten tekst simpelweg vergelijken met zo’n lijst.

Structuur

Een ingewikkelder criterium dat de computer kan gebruiken is het kijken naar de structuur van de tekst. Elke tekst is opgebouwd uit zinnen die vaak ook weer aan elkaar gekoppeld zijn door woorden als ‘deze’ of ‘hierdoor’. Ook worden voor belangrijke woorden in een tekst vaak synoniemen gebruikt om de tekst minder saai te maken. Zinnen met veel van dergelijke koppelingen wijzen erop dat ze waarschijnlijk belangrijk zijn in de tekst. De computer zal deze verwijzingen en synoniemen moeten leren herkennen om de essentiële zinnen uit de tekst te kunnen filteren.

De zinnen in een tekst zijn zelf ook weer opgebouwd uit kleinere onderdelen. Dit zijn niet de woorden, maar de zinsdelen. Met behulp van een speciaal programma, een parser, is een computer al vrij goed in staat om zinnen te ontleden. Van deze ontlede zinsstructuur kan het samenvattingssysteem ook weer veel afleiden. Zo weet hij bijvoorbeeld dat bijwoordelijke bepalingen makkelijk achterwege gelaten kunnen worden, maar dat zinsdelen waarin een zelfstandig naamwoord centraal staat juist belangrijk zijn.

Met behulp van een zogenaamde parser kan een computer ook zinnen ontleden. Dit levert een boomstructuur op zoals hiernaast (klik voor een vergroting). Aan de hand van zo’n boomstructuur kan de computer beslissen welke zinsdelen hij opneemt in zijn samenvatting.

Kwaliteit

Op basis van al deze criteria kan de computer scores toekennen aan de verschillende zinnen in een tekst. Zinnen met een hoge score zijn essentieel en zinnen met een lage score dragen inhoudelijk niet zoveel bij aan de tekst. Een samenvattingssysteem sorteert vervolgens de zinnen op hun belangrijkheid, van hoog naar laag. Afhankelijk van de gewenste lengte van de samenvatting selecteert hij daarna de beste scorende zinnen voor in zijn samenvatting.

Hoe goed zijn deze automatisch gegenereerde samenvattingen nu eigenlijk? “De samenvattingen zijn nog niet net zo goed als samenvattingen die door mensen zijn geschreven”, aldus Hendrickx. “Maar samenvattingen laten schrijven door mensen is kostbaar in tijd en inspanning. Door de digitalisering zijn steeds meer informatiebronnen beschikbaar in elektronische vorm, en automatisch gegenereerde samenvattingen kunnen goed helpen met het doorzoeken en aanbieden van grote hoeveelheden informatie.”

Onderzoekers van over de hele wereld die samenvattingssystemen ontwerpen nemen het ieder jaar tegen elkaar op tijdens de Text Analyzing Conferentie. Ook hier lijken de extractie-systemen meer veelbelovend voor de toekomst dan abstractie-systemen. In 2008 werkten alle deelnemende systemen volgens deze methode en gebruikten ze voornamelijk de hierboven beschreven statistische methode.

Multi-document summarization

“Een vorm van samenvatten die ik zelf erg bruikbaar vind is multi-document summarization”, vertelt Hendrickx. “Dit is het creëren van een samenvatting voor een groep teksten over hetzelfde onderwerp.” Je kunt deze techniek gebruiken om snel een overzicht te krijgen van een bepaald onderwerp. Alle informatie die je anders dubbel zou lezen, omdat ze in verschillende teksten voorkomen, kan het samenvattingssysteem eruit filteren. NewsInEssence is een website die volgens deze methode werkt. Het systeem achter deze site zoekt nieuwsartikelen over hetzelfde onderwerp bij elkaar en maakt er volgens één samenvatting van. Zo hoef je als bezoeker niet alle informatie zelf bij elkaar te zoeken, maar krijg je het in één keer voorgeschoteld.

Door de computer gemaakte samenvattingen kunnen dus goed van pas komen, zeker in het huidige digitale tijdperk waarin de hoeveelheid online informatie exponentieel groeit. Zo goed als een met de hand gemaakte samenvatting zal een computergegenereerde samenvatting voorlopig niet worden; daarvoor begrijpt een computer gewoonweg te weinig van menselijke taal. De samenvattingen voor school kun je voorlopig dus nog maar het beste zelf blijven maken.

Lees verder:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/stevin.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 07 februari 2010
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.