
De eersten die zich deze vraag stelden waren de Amerikanen in de jaren ’20 van de vorige eeuw. Het land stroomde vol met immigranten die allemaal Engels moesten leren. Zij kwamen allemaal samen in de schoolbanken te zitten, maar het niveau van de leerlingen verschilde onderling soms enorm. Dat maakte het moeilijk om lesmateriaal te vinden dat voor iedereen geschikt was.
Frustraties
De vraag is nu nog altijd actueel: het aantal mensen dat een vreemde taal leert is de afgelopen eeuw alleen maar toegenomen. Maar ook de overheid worstelt soms met de moeilijkheidsgraad van haar teksten. Ambtenaren kunnen flink verzanden in juridische taal die voor de burger onbegrijpelijk is: slecht voor de communicatie en oorzaak van vele frustraties. Een objectieve methode om de moeilijkheidsgraad van een tekst vast te stellen biedt dan uitkomst.
En dat is nou precies wat leesbaarheidsonderzoek inhoudt. Door bepaalde tekstkenmerken in te voeren in speciale leesbaarheidsformules krijg je een score. En met die score kun je teksten onderling makkelijk vergelijken. Maar welke kenmerken neem je op in deze formule?

Handwerk
De bekendste methode is de Flesch Reading Ease-formule die in 1948 door Rudolph Flesch is ontwikkeld. In zijn formule nam hij de gemiddelde zinslengte en het gemiddelde aantal lettergrepen per woord op. Dit levert een score op tussen de nul en honderd. Hoe hoger de score, des te makkelijker is een tekst te lezen. Begin jaren ’60 is deze formule aangepast voor het Nederlands, wat de AVI-leesniveaus opleverde. Het AVI-systeem is in 2008 flink op de schop gegaan. In de nieuwe formule is het gemiddelde aantal lettergrepen vervangen voor het gemiddelde aantal letters in een woord. Daarnaast is het percentage hoogfrequente woorden meegenomen.
Een van de redenen waarom de AVI-formule is aangepast is dat het tegenwoordig heel makkelijk is om de computer het leesbaarheidsonderzoek te laten uitvoeren. Vroeger deed men dit met de hand. Het tellen van de lettergrepen is dan al veel werk, maar met het tellen van de letters ben je nog veel langer bezig. Om over het opzoeken van woorden in frequentielijsten nog maar te zwijgen. De computer bespaart de onderzoekers dus veel tijd en komt ook nog eens met een nauwkeuriger score.
Oppervlakte
Toch is er nog altijd veel kritiek op deze vorm van leesbaarheidsonderzoek. Veronique Hoste, onderzoekster aan de Hogeschool Gent vertelt waarom. “Leesbaarheidsformules focussen te veel op de oppervlaktekenmerken van een tekst, zoals de gemiddelde woord- en zinslengte. Als je hersenen een tekst verwerken doen ze veel meer dan het decoderen van de oppervlaktevorm van woorden en zinnen.” De formules kunnen wel voorspellen hoe goed een tekst technisch leesbaar is, maar of hij ook inhoudelijk goed te begrijpen is, is weer een heel ander verhaal. “Zulke leesbaarheidsformules gaan geheel voorbij aan de onderliggende parameters van helderheid zoals samenhang en tekstopbouw.”
Hoste is betrokken bij het onderzoeksproject Hendi aan de Hogeschool van Gent. De onderzoekers binnen dit project werken aan een methode die automatisch de leesbaarheid van Nederlandse teksten beoordeelt, ongeacht het type tekst. De methode moet zijn beoordeling niet baseren op oppervlaktekenmerken, maar op factoren die de leesbaarheid beïnvloeden. Zo kan de schrijver ook zien wat hij moet veranderen om zijn tekst beter leesbaar te maken.
Experts
Als woord- en zinslengte de leesbaarheid alleen weerspíegelen, welke factoren veróórzaken de leesbaarheid van een tekst dan? Om dat te onderzoeken stellen de wetenschappers eerst een grote database, een zogenaamd corpus, samen met heel veel teksten. “We hebben een panel van experts, bestaande uit onder andere docenten Nederlands en vertalers, gevraagd een honderdtal teksten te beoordelen”, aldus Hoste. Uit deze beoordeling bleek dat zij vooral teksten met moeilijke woorden, ingewikkelde zinsconstructies en weinig samenhang als moeilijk ervoeren.
Daarnaast hebben de onderzoekers met speciale software een taalkundige analyse uitgevoerd op elke tekst uit de database. De computer bekeek hierbij tientallen kenmerken, veel meer dan er tot nu toe in leesbaarheidsformules zijn opgenomen.
Met een taalkundige analyse kan je tientallen kenmerken uit een tekst onderzoeken. Deze kenmerken zijn in te delen in verschillende groepen.
- Woordniveau: o.a. rijkdom van woordenschat, ratio functiewoorden, ontkennende woorden
- Zinsniveau: o.a. aantal bijzinnen, aantal passieve zinnen, ontkenningen, aantal woorden voor het hoofdwerkwoord
- Semantisch: o.a. archaïsmen, namen
- Pragmatisch: o.a. samenhang tussen zinsdelen, verbindingen tussen zinnen
Bijsluiters en handleidingen
De computer heeft nu dus van elke tekst een subjectieve beoordeling van de moeilijkheid en tientallen objectieve maten die kenmerken van de tekst weerspiegelen. De onderzoekers pasten vervolgens machine learning-technieken toe. Met deze methode gaat de computer zelf op zoek naar de relatie tussen –in dit geval- de objectieve tekstkenmerken en de subjectieve beoordeling van lezers. Hij zoekt naar patronen, en vindt dan bijvoorbeeld dat lezers teksten met veel bijzinnen meestal moeilijk vinden. Of dat teksten in de verleden tijd net zo moeilijk worden bevonden als teksten in de tegenwoordige tijd. Zo probeert de computer de ultieme (objectieve) formule samen te stellen die de subjectieve beoordeling het beste benadert.
Hoste en haar collega’s zijn nog druk bezig met hun onderzoek. Ze hopen in 2011 een applicatie af te hebben die van alle soorten teksten de helderheid kan meten. “Onze Hendi-applicatie zal niet alleen kijken naar oppervlaktekenmerken zoals de huidige formules doen”, legt Hoste uit. “Bij de selectie van materiaal voor taalleerders kunnen Hendi-gebruikers ook kijken naar de complexiteit van de teksten op dieper taalkundig niveau.” En dat is niet alleen handig voor iedereen die op latere leeftijd nog Nederlands wil leren. “De applicatie is ook nuttig bij het meten van de helderheid van bijsluiters, handleidingen, contracten, ambtelijke teksten en ga zo maar door.”