Naar de content

Taalmodel zoekt datadonoren

Patrick Tomasso, via Unsplash.com

Onderzoekers werken aan een rechtvaardige, ‘Nederlandse ChatGPT’, en daar is heel veel data voor nodig. Die willen ze niet zonder toestemming van het internet plukken, maar op een nette manier verkrijgen.

19 juni 2025

Ergens in de acht verdiepingen tellende toren van Het Utrechts Archief liggen ze: notulen van de raadsbijeenkomsten van gemeentes, notulen van provinciale vergaderingen, beleidsrapporten en andere overheidsdocumentatie uit de regio Utrecht, in de periode van ongeveer 1850 tot 1924. Annelot Vijn, specialist digitaal collectiebeheer bij Het Utrechts Archief, toont me een van de acht nauwe gangen waar verrijdbare archiefkasten staan, vol met zwavelvrije archiefdozen. In het gebouw ligt in totaal is 35 kilometer aan archiefmateriaal.

De collectie uit het overheidsarchief is een deels handgeschreven, deels gedrukte verzameling . In totaal zijn een miljoen van die gescande documenten gebruikt om een gloednieuw Nederlands taalmodel te trainen. Dit taalmodel, GPT-NL, is een vorm van kunstmatige intelligentie (AI) die op basis van heel veel data leert hoe het overtuigende Nederlandse teksten kan produceren. 

Enorme voorsprong

Informatie opzoeken, teksten laten samenvatten of leuke plaatjes of filmpjes genereren – sinds een paar jaar doet iedereen het volop met behulp van een taalmodel, zoals ChatGPT. Dat taalmodel is ontwikkeld door het Amerikaanse bedrijf OpenAI. Voordat ChatGPT op de markt gebracht kon worden, moest het eerst uitgebreid leren hoe het woorden kon voorspellen en zinnen kon maken. Daarvoor is het getraind op ontzettend veel data die op het internet beschikbaar zijn. Denk aan Wikipedia-pagina’s, nieuwswebsites, boeken en allerlei fora. Maar die data zijn niet rechtmatig verkregen, vinden bijvoorbeeld auteurs en mediaorganisaties, die rechtszaken tegen OpenAI zijn gestart.

Daarnaast zijn veel techbedrijven die taalmodellen maken, naast OpenAI zijn dat bijvoorbeeld Apple, Google, Meta en Microsoft, niet open over hoe hun modellen zijn getraind. Deze bedrijven hebben daardoor een enorme voorsprong met AI kunnen maken. Omdat wetenschappers, overheden en kleinere bedrijven niet onder de motorkap kunnen kijken en geen basisversies van die taalmodellen mogen gebruiken, is het voor hen moeilijker om ook (nuttige) AI-producten te bouwen. Tenslotte zijn veel commerciële taalmodellen nu zo ingericht dat de dingen die jij aan het taalmodel ‘vertelt’, gebruikt worden om het model verder mee te trainen. Gevoelige informatie kan daarmee in verkeerde handen vallen.

Nederlandse leveranciers

Dat moet anders, dacht een groep Nederlandse wetenschappers, die werken bij onderzoeksinstituut TNO, ICT-organisatie SURF en het Nederlands Forensisch Instituut (NFI). Kunnen we niet een Nederlands taalmodel maken, dat is getraind op rechtmatig verkregen Nederlandse data? En dat op Nederlandse servers draait? Het idee klinkt als een soort David versus Goliath, maar toch besloten de onderzoekers het te proberen en ze deden een succesvolle aanvraag voor subsidie bij de Rijksoverheid. “In plaats van vergiffenis achteraf te vragen, vragen wij toestemming vooraf”, vertelt Frank Brinkkemper van SURF vanuit een van de vergaderzalen van het archiefgebouw.

GPT-NL heeft straks hopelijk de meeste kennis van de Nederlandse cultuur

— Frank Brinkkemper

Hét basisingrediënt voor een taalmodel is data, veel data. In totaal zijn er minimaal 450 miljard tokens nodig, dat zijn woorden en delen van woorden. Met meer tokens kan een taalmodel beter de fijne kneepjes van de Nederlandse taal leren. Maar omdat GPT-NL niet simpelweg het internet wil schrapen, moeten de data op een andere manier worden verkregen. Deels gebruiken de onderzoekers daarvoor Common Corpus, een grote dataset met openbare data. Daarin zitten veel anderstalige teksten, die alleen in de eerste fases van het trainingsproces nuttig zijn. De belangrijkste data moeten van Nederlandse leveranciers komen.

Inmiddels heeft GPT-NL met meer dan dertig partijen afspraken gemaakt over donatie. Dat zijn onder andere uitgeverijen en archiefinstellingen zoals de Koninklijke Bibliotheek en het Nationaal Archief, maar ook De Nederlandse Bank en de Vereniging van Nederlandse Gemeenten. Ook notulen van de Tweede Kamer, wetsvoorstellen en rechterlijke uitspraken zijn in de dataset opgenomen. Al die input wordt gebruikt om het meest Nederlandse taalmodel ooit te creëren. Brinkkemper: “Het is niet per se bedoeld om nog beter Nederlands te kunnen formuleren, want bestaande taalmodellen zijn al best goed in het Nederlands. Maar GPT-NL heeft straks hopelijk wel de meeste kennis van de Nederlandse cultuur.”

Piramidemodel

Het Utrechts Archief kon niet zomaar alle digitale bronnen doneren. Omdat recente stukken privacygevoelige informatie van levende personen kan bevatten, is ervoor gekozen alleen materiaal te doneren dat ouder dan honderd jaar is. Ook medische informatie en bouwtekeningen zijn eruit gehaald. Hebben zulke oude stukken wel nut voor een taalmodel? Brinkkemper: “Teksten van honderd jaar oud zijn nog goed leesbaar, maar de relevantie van informatie vervalt na 30 tot 40 jaar wel.” Toch zijn de data nuttig voor de training van het taalmodel, vertelt hij. “Het taalmodel wordt in meerdere rondes getraind, volgens een piramidemodel. In de eerste paar rondes wordt de volledige dataset meegenomen. Archiefmateriaal zit alleen in de onderste laag van de piramide. In volgende trainingsrondes zullen steeds meer data afvallen waardoor alleen de data van de hoogste kwaliteit overblijven. Die kwaliteit wordt onder andere bepaald door de leeftijd van de tekst.”

De oude overheidsstukken van Het Utrechts Archief zijn dus een geschikte kandidaat, maar aan alleen maar scans heeft een taalmodel nog niks – het moet de woorden in de oude, deels handgeschreven teksten wel kunnen lezen. Daarom was er nog een stap nodig en moesten alle scans eerst door een ander AI-programma worden bewerkt, dat gespecialiseerd is in optische tekenherkenning. Dat maakt de scans leesbaar voor computers. Het Utrechts Archief maakt vaak gebruik van zulke tools, en schakelt vrijwilligers in die ‘paleografie’ (handschriftkunde) als hobby hebben. Zij controleren of de AI het handschrift of de gedrukte tekst goed overgenomen heeft. Het AI-programma dat hiervoor wordt ingezet is echter kostbaar.

Een stapel oude documenten, met op de voorgrond een handgeschreven brief.

Een miljoen documenten uit het overheidsarchief zijn gebruikt om GPT-NL te trainen.

https://www.pexels.com/nl-nl/foto/witte-gestapelde-werkbladen-op-tafel-51191/

GPT-NL bood een oplossing. Het was eerst de bedoeling dat de dataverzameling al in de zomer van 2024 afgerond zou zijn, zodat de training van het model in het najaar zou plaatsvinden. Daarvoor was al rekenkracht gereserveerd op supercomputer Snellius van SURF. Het trainen van zo’n taalmodel kost namelijk veel tijd, waardoor onderzoekers van tevoren een aanvraag moeten indienen om tijd op de computer te reserveren. “Maar onze planning bleek veel te ambitieus”, zegt Brinkkemper, “omdat het ophalen van data met toestemming veel meer tijd kost. We dachten: hoe kunnen we die rekenkracht nuttig gebruiken? Toen hebben we Snellius ingezet om de scans van Het Utrechts Archief doorzoekbaar te maken.”

Archiefassistent

Snellius deed er twee weken over om alle scans te verwerken. “Dat was voor ons natuurlijk fantastisch”, vult Vijn aan. “Doorzoekbare data openen allerlei mogelijkheden. Een simpel voorbeeld: bij een eerder experiment was een eigenaar van een barbershop op zoek naar oude afbeeldingen van snorren en baarden. Met behulp van een simpele zoekvraag aan een AI-tool kon hij die vinden in de collectie. En zo kun je je voorstellen dat je met doorzoekbare data veel meer onderzoeksvragen kunt gaan stellen.”

Vijn ziet voor zich dat er uiteindelijk een soort archiefassistent wordt ontwikkeld op basis van GPT-NL, die medewerkers en gebruikers helpt om informatie te vinden. Brinkkemper filosofeert door: “Misschien kun je met behulp van GPT-NL straks wel met de eerste burgemeester van Utrecht praten?” Vijn: “Dat zou superleuk zijn! Als er in zo’n gesprek herleidbaar geciteerd kan worden uit onze authentieke bronnen, dan gaat er een nieuwe wereld open voor onderzoekers. Ze kunnen dan sneller dan ooit door grote hoeveelheid data spitten. Het is nu nog toekomstmuziek, maar wie weet waar we over een paar jaar staan.”