Naar de content

Alleen schone data voor GPT-NL

Panumas Nikhomkhai, via pexels.com

Het Nederlandse taalmodel GPT-NL wordt getraind op zoveel mogelijk Nederlandse data, maar die moeten eerst ‘opgepoetst’ worden. Schuttingtaal, vooroordelen en persoonlijke informatie moeten er zoveel mogelijk uit, maar hoe doe je dat?

23 juni 2025

Tweede Kamerdebatten, wetsvoorstellen, rechterlijke uitspraken, webteksten en krantenartikelen – er is hard gewerkt om al deze data te verzamelen. Drie Nederlandse kennisinstellingen (TNO, SURF en het Nederlands Forensisch Instituut) makenwerken aan namelijk het Nederlandse taalmodel GPT-NL, een vorm van kunstmatige intelligentie (AI). De onderzoekers hebben een enorme berg Nederlandstalige data nodig om dit model te laten werken. Het verzamelen was een hels karwei. Nu al die data binnen zijn kunnen de algoritmes van GPT-NL bijna aan de slag om Nederlands te leren. Maar eerst moeten de data nog worden opgeschoond. Die taak ligt onder andere bij Eliza Hobo, onderzoeker bij TNO.

Ze vertelt welke stappen nodig zijn om de data bruikbaar te maken. “Eerst moeten we zorgen dat we alleen tekst overhouden. Afbeeldingen, cijfers en kop- en voetteksten willen we eruit filteren.” Daarnaast moet persoonlijk identificeerbare informatie uit de dataset worden gehaald. Woonadressen, kentekens, BSN-nummers, IBAN-nummers en creditcardnummers kun je redelijk makkelijk herkennen, zegt Hobo. “Maar je wilt ook niet alle straatnamen en woonplaatsen uit je data verwijderen. Dan weet een taalmodel bijvoorbeeld niet meer wat de Kalverstraat is.”

Schadelijk taalgebruik

Het wordt lastig als er over iemand specifieke details zijn genoemd. “Als het gaat over iemand in Arnhem met een zeldzame ziekte, dan zou je dat tot één persoon kunnen herleiden.” Daarentegen is het voor een taalmodel wel nuttig als het Bekende Nederlanders herkent. “We willen wel dat het taalmodel informatie bevat over politicus Mark Rutte, maar niet over mijn buurman, die toevallig ook Mark Rutte heet.” Een van de manieren waarop de onderzoekers dat willen oplossen, is door van alle genoemde namen te kijken of die een Wikipedia-pagina hebben. De namen van onbekende Nederlanders worden dan vervangen door een zelfverzonnen naam.

Een andere belangrijke stap is het herkennen en verwijderen van schadelijk taalgebruik. Daarvoor maken de onderzoekers gebruik van de Dutch Abusive Language Corpus, een dataset ontwikkeld door de Rijksuniversiteit Groningen. Deze onderzoekers bestudeerden de tweets over verschillende gebeurtenissen die toentertijd tot veel discussie leidden, zoals de intocht van Sinterklaas in 2018 en de Black Lives Matter-protesten in 2020. Daaruit kwamen woorden en taalgebruik naar voren die als schadelijk kunnen worden ervaren. De onderzoekers publiceerden er ook een methode bij hoe je dit taalgebruik in andere bronnen kunt opsporen.

Persoonlijke gegevens, dubbelingen en scheldwoorden worden zorgvuldig uit de trainingsdata gehaald.

Vlada Karpovich, via Pexels.com

De laatste stap, voordat de training kan plaatsvinden, is het verwijderen van duplicaten. “Omdat we van meerdere leveranciers data hebben gekregen, kan het zijn dat bepaalde teksten er dubbel in staan. Dat willen we niet, want het model gaat dan meer waarde aan die tekst hechten. Sommige datasets zullen we juist wel herhalen tijdens de training, bijvoorbeeld omdat het data van goede kwaliteit zijn, maar daar willen we zelf controle over hebben.”

15.000 vragen

Als de data dan eindelijk helemaal klaar zijn, kan het trainen gebeuren, op de Snellius supercomputer (zie kader). Deze heeft drie maanden nodig, dag en nacht, om alle data te verwerken. Het algoritme verwerkt dan alle data, waardoor het beter leert om het volgende woord te voorspellen.

Tegelijkertijd met de training worden heel veel mensen aan het werk gezet, om maar liefst 15.000 vraag-antwoordcombinaties te verzinnen. Dit zijn vragen die gebruikers in de toekomst ook aan het model zouden kunnen stellen. Menselijke ‘annoteurs’ stellen die vragen en geven ook het goede antwoord. Het kunnen allerlei vragen zijn, zoals: geef me een lijst met eigenschappen van een goed café, vat samen wat LinkedIn doet of leg uit waarom je beter niet een kat en een vogel als huisdieren kunt hebben.

Nederlandse AI-fabriek

Supercomputer Snellius van ICT-organisatie SURF is gevestigd op het Amsterdam Science Park. Onderzoekers van Nederlandse kennisinstellingen kunnen de faciliteit gebruiken als ze veel rekenkracht of opslagcapaciteit nodig hebben. Snellius beschikt over 640 grafische kaarten of Graphics Processing Units (GPU’s). 88 daarvan zijn van het allernieuwste, snelste type, genaamd H100, geleverd door de Amerikaanse chipmaker NVIDIA. 

Dat lijkt misschien veel, maar het valt het in het niets bij de rekenkracht die de Amerikaanse techbedrijven hebben. Meta, het moederbedrijf van Facebook, beschikt bijvoorbeeld over 16.000 van die H100-chips. Nederlandse onderzoekers kunnen ook nog terecht bij supercomputer LUMI in Finland, een van de krachtigste ter wereld. Maar de wens is wel om meer supercomputerkracht in Nederland te bouwen in een grote AI-fabriek, zodat Nederland kan bijblijven in de AI-wedloop.

Tijdens deze stap is het belangrijk om op diversiteit te letten, zodat niet te veel dezelfde thema’s aan bod komen. Daarom is een enquête uitgezet om aan mensen te vragen wat zij bijvoorbeeld belangrijke publieke personen vinden en aan welke gebeurtenissen en feestdagen zij waarde hechten. Ook wordt erop gelet dat het team van annoteurs zo divers mogelijk is. Hobo: “Daarmee hopen we menselijke vooroordelen zoveel mogelijk terug te dringen.” Het model leert dan van alles over, bijvoorbeeld, zangeres Roxy Dekker, maar ook over de Nederlands-Antilliaans-Marokkaanse zanger Jayh. Deze stap is bedoeld om het model te finetunen. Op basis van die vragen en antwoorden weet het model beter welke informatie belangrijk is.

Beter leesbaar

Na deze training en finetuning is er dan eindelijk een 1.0-versie van het model beschikbaar. Eind dit jaar of begin volgend jaar zou die klaar voor gebruik moeten zijn. Het is de bedoeling dat het model dan drie taken kan uitvoeren: teksten vereenvoudigen, samenvatten en informatie opzoeken. Het model wordt in eerste instantie alleen gratis beschikbaar voor wetenschappers. Zij kunnen verder bouwen op het basismodel, om er nieuwe AI-toepassingen mee te maken.

We doen dit vooral voor de digitale onafhankelijkheid van Nederland

— Eliza Hobo

Hobo verwacht dat het taalmodel ook voor overheden interessant is. “Beleidsmedewerkers kunnen hiermee bijvoorbeeld rapporten beter leesbaar maken voor verschillende doelgroepen. Er zit ontzettend veel potentie in het automatiseren en digitaliseren van huidige werkprocessen bij de overheid, die te complex en privacygevoelig zijn om aan een Amerikaans bedrijf over te laten.”

Los van big tech

GPT-NL zal echter niet direct een chatvenster hebben, zoals je dat van ChatGPT kent. En dus is het ook niet gelijk voor consumenten beschikbaar voor al hun zoekvragen. Frank Brinkkemper van SURF licht toe: “Omdat het ontzettend duur is om zo’n model te maken, gaan we waarschijnlijk met licenties werken, die organisaties kunnen kopen. Ik verwacht wel dat op dag één dat ons model beschikbaar is, er gelijk een commerciële partij zal opstaan die er een chatbot van maakt.” Al je vragen over je favoriete Nederlandse zanger of amateur voetbalclub zal die dan voor je kunnen beantwoorden.

Toch moet Hobo dat beeld nuanceren, want het is maar de vraag of GPT-NL ooit het niveau van ChatGPT gaat halen. “Ons doel is om hetzelfde prestatieniveau als GPT-3 te halen, dat is een oude versie van ChatGPT uit 2020. Misschien halen we wel betere presentaties, omdat GPT-NL een betere representatie van Nederland heeft, maar ChatGPT is inmiddels heel ver doorontwikkeld en afgestemd op specifieke toepassingen, zo ver zijn wij nog lang niet. Het uitgangspunt van GPT-NL is toch vooral dat we dit doen voor de digitale onafhankelijkheid van Nederland en om los te komen van de vendor lock-in (koppelverkoop, red) van big tech.”

ReactiesReageer