En dat is precies waar taaltechnologen al vele jaren aan werken. Iris Hendrickx is er één van. Sinds kort werkt ze aan de Universiteit van Lissabon, maar hiervoor werkte ze aan de Universiteit van Antwerpen mee aan DAESO, een STEVIN -onderzoeksproject dat zich richtte op automatisch samenvatten. “Voor een goede samenvatting moet een computer de tekst volledig begrijpen en daar een globale, ingekorte representatie van kunnen geven”, aldus Iris Hendrickx.

Abstractie of extractie
Dat lijkt misschien eenvoudig, maar is het bepaald niet. Voor een computer is een tekst niks meer dan een reeks enen en nullen; hij heeft geen idee dat deze ook nog een betekenis hebben. Laat staan wélke betekenis dat dan precies is. Toch zijn er manieren om een computergegenereerde samenvatting te ontwikkelen. De manier die Hendrickx zojuist beschreef heet abstractie. De computer moet hiervoor natuurlijke taal kunnen begrijpen én hij zal zelf taal moeten kunnen produceren. Een andere manier van samenvatten heet extractie. Hierbij selecteert de computer de belangrijkste zinnen uit een tekst en plakt deze vervolgens samen tot een nieuwe, kortere tekst. De computer hoeft dan de tekst niet echt te begrijpen en hij hoeft geen zinnen zelf te formuleren.
“Omdat het op dit moment nog niet haalbaar is om systemen te bouwen die een tekst volledig kunnen begrijpen, gebruiken de huidige automatische samenvattingssystemen bijna allemaal extractie-methoden in plaats van abstractie”, legt Hendrickx uit. Ook het DEASO-systeem waar zij voor het Nederlands aan werkte gebruikt deze methode. “Het cruciale punt voor deze methode is natuurlijk het meten welke zinnen belangrijk zijn in een tekst.” Een samenvattingssysteem gebruikt hiervoor een statistische aanpak waarbij hij kijkt naar verschillende aspecten van de tekst.
Frequentie
Hij kan bijvoorbeeld de positie van een zin of alinea in een tekst gebruiken. De eerste en de laatste zin of alinea zijn vaak inhoudelijk het belangrijkst. Een andere aanwijzing voor een belangrijke zin kunnen zogenaamde cue phrases zijn. Dit zijn bepaalde woorden of zinsdelen die erop wijzen dat er iets essentieels gezegd gaat worden. Na een zinsdeel als “Hiermee wil ik aantonen dat…” komt meestal de kern van het verhaal. De cue phrase geeft de computer een hint: nu komt er iets belangrijks!

Het samenvattingssysteem kan ook kijken naar hoe vaak de verschillende woorden in een tekst voorkomen. Woorden als ‘de’, ‘op’ of ‘en’ komen meestal vaak voor in teksten, maar wanneer woorden als ‘apotheek’ of ‘klimaatverandering’ ineens onverwacht veel voorkomen in een tekst, wijst dat erop dat deze woorden het onderwerp van de tekst vormen. De zinnen waar ze in voorkomen kunnen dan bruikbaar zijn voor de samenvatting. Om te weten hoe vaak verschillende woorden gemiddeld in het Nederlands voorkomen bestaan speciale frequentielijsten. De computer kan de woordfrequenties uit de samen te vatten tekst simpelweg vergelijken met zo’n lijst.
Structuur
Een ingewikkelder criterium dat de computer kan gebruiken is het kijken naar de structuur van de tekst. Elke tekst is opgebouwd uit zinnen die vaak ook weer aan elkaar gekoppeld zijn door woorden als ‘deze’ of ‘hierdoor’. Ook worden voor belangrijke woorden in een tekst vaak synoniemen gebruikt om de tekst minder saai te maken. Zinnen met veel van dergelijke koppelingen wijzen erop dat ze waarschijnlijk belangrijk zijn in de tekst. De computer zal deze verwijzingen en synoniemen moeten leren herkennen om de essentiële zinnen uit de tekst te kunnen filteren.
De zinnen in een tekst zijn zelf ook weer opgebouwd uit kleinere onderdelen. Dit zijn niet de woorden, maar de zinsdelen. Met behulp van een speciaal programma, een parser, is een computer al vrij goed in staat om zinnen te ontleden. Van deze ontlede zinsstructuur kan het samenvattingssysteem ook weer veel afleiden. Zo weet hij bijvoorbeeld dat bijwoordelijke bepalingen makkelijk achterwege gelaten kunnen worden, maar dat zinsdelen waarin een zelfstandig naamwoord centraal staat juist belangrijk zijn.

Kwaliteit
Op basis van al deze criteria kan de computer scores toekennen aan de verschillende zinnen in een tekst. Zinnen met een hoge score zijn essentieel en zinnen met een lage score dragen inhoudelijk niet zoveel bij aan de tekst. Een samenvattingssysteem sorteert vervolgens de zinnen op hun belangrijkheid, van hoog naar laag. Afhankelijk van de gewenste lengte van de samenvatting selecteert hij daarna de beste scorende zinnen voor in zijn samenvatting.
Hoe goed zijn deze automatisch gegenereerde samenvattingen nu eigenlijk? “De samenvattingen zijn nog niet net zo goed als samenvattingen die door mensen zijn geschreven”, aldus Hendrickx. “Maar samenvattingen laten schrijven door mensen is kostbaar in tijd en inspanning. Door de digitalisering zijn steeds meer informatiebronnen beschikbaar in elektronische vorm, en automatisch gegenereerde samenvattingen kunnen goed helpen met het doorzoeken en aanbieden van grote hoeveelheden informatie.”
Onderzoekers van over de hele wereld die samenvattingssystemen ontwerpen nemen het ieder jaar tegen elkaar op tijdens de Text Analyzing Conferentie. Ook hier lijken de extractie-systemen meer veelbelovend voor de toekomst dan abstractie-systemen. In 2008 werkten alle deelnemende systemen volgens deze methode en gebruikten ze voornamelijk de hierboven beschreven statistische methode.
Multi-document summarization
“Een vorm van samenvatten die ik zelf erg bruikbaar vind is multi-document summarization”, vertelt Hendrickx. “Dit is het creëren van een samenvatting voor een groep teksten over hetzelfde onderwerp.” Je kunt deze techniek gebruiken om snel een overzicht te krijgen van een bepaald onderwerp. Alle informatie die je anders dubbel zou lezen, omdat ze in verschillende teksten voorkomen, kan het samenvattingssysteem eruit filteren. NewsInEssence is een website die volgens deze methode werkt. Het systeem achter deze site zoekt nieuwsartikelen over hetzelfde onderwerp bij elkaar en maakt er volgens één samenvatting van. Zo hoef je als bezoeker niet alle informatie zelf bij elkaar te zoeken, maar krijg je het in één keer voorgeschoteld.
Door de computer gemaakte samenvattingen kunnen dus goed van pas komen, zeker in het huidige digitale tijdperk waarin de hoeveelheid online informatie exponentieel groeit. Zo goed als een met de hand gemaakte samenvatting zal een computergegenereerde samenvatting voorlopig niet worden; daarvoor begrijpt een computer gewoonweg te weinig van menselijke taal. De samenvattingen voor school kun je voorlopig dus nog maar het beste zelf blijven maken.
Lees verder:
- STEVIN-project DAESO
- Probeer Alpino, een parser, zelf uit
- Smmry.com (site die automatisch samenvatting genereert)
- Maak zelf je eigen ‘word cloud’ met Wordle
Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/stevin.atom", “max”=>"5", “detail”=>"normaal"}