In dit artikel legt Prof. dr. ir. Jan Scholtes, de nieuwe bijzonder hoogleraar Text mining, uit wat text mining is, welke technieken erachter schuilgaan en wie er allemaal gebruik van kunnen maken. Zonder dat we het merken komen we in ons dagelijks leven al regelmatig met text mining in aanraking.
Text mining of data mining
Met de opkomst van de computer en het internet is de laatste decennia de hoeveelheid beschikbare informatie drastisch toegenomen. Om in deze immense, digitale hooiberg toch nog de speld te vinden die je zoekt, kan je gelukkig gebruik maken van zoekmachines. Je typt een zoekterm in en de computer brengt je gelijk naar het juiste document en de juiste passage binnen dat document. Soms weet je echter niet precies wat je zoekt, maar wil je de inhoudelijke kern achterhalen van een grote hoeveelheid documenten. Een eenvoudige zoekmachine zal je dan niet veel verder kunnen helpen. Text mining wel.
Prof. dr. ir. Jan Scholtes, de nieuwe bijzonder hoogleraar Text mining aan de Universiteit Maastricht
Professor Scholtes legt in zijn oratie uit dat text mining een variant is van data mining. Bij data mining zoekt de computer naar patronen in grote hoeveelheden gegevens. Het verschil met text mining is dat de gegevens voor data mining gestructureerd zijn: het is van te voren bekend of het gaat om bijvoorbeeld data, prijzen of plaatsnamen. Bij text mining weet je van te voren niet welke informatie in de teksten staat – de gegevens zijn dus ongestructureerd. Een computer begrijpt echter geen taal, hij kent alleen enen en nullen. Er komt dus de nodige techniek bij kijken voor de computer je kan vertellen welke patronen hij in de teksten ziet. Hoe gaat dat in zijn werk?
Entiteiten en attributen
Het proces van text mining is in te delen in drie fases: preprocessing, text mining en presentatie. In de eerste fase bewerkt de computer de documenten zo dat hij ze kan doorzoeken op patronen en relaties. Hij voert onder andere een taalkundige analyse uit. Door deze analyse weet hij precies de grammaticale structuur van de zinnen, weet naar wie er binnen de teksten verwezen wordt (met bv ‘hij’ of ‘die’) en weet welke namen en synoniemen er in de teksten voorkomen. In deze fase zet hij de documenten om in een taal waarin hij kan werken.
In de tweede fase (text mining) probeert de computer informatie uit de documenten te halen. Aan de hand van zijn taalkundige analyse gaat hij op zoek naar entiteiten, attributen, feiten en gebeurtenissen. Entiteiten zijn de basiseenheden in een tekst: personen, bedrijven, locaties of producten. Attributen zijn de eigenschappen van deze entiteiten: leeftijden, adressen, enz. In deze fase probeert de computer ook de teksten in te delen in passende categorieën.
In de laatste fase vertaalt de computer zijn bevindingen terug naar gewone mensentaal. Hij geeft ze weer in mooie plaatjes zoals boomdiagrammen of maakt het mogelijk om te zoeken op eigenschappen in de documenten. Ook kan de gebruiker als hij wil statistische analyses uitvoeren op de uitkomsten. Zo hoef je niet de enorme hoeveelheid documenten zelf door te pluizen en heb je toch een goed beeld van wat er in te vinden is.
Een plaatje zegt meer dan duizend woorden. De computer kan de verbanden en patronen die hij vindt in grote hoeveelheden tekst op verschillende manieren weergeven. Een voorbeeld is de boomdiagram zoals je die bovenin ziet. Zo zie je duidelijk hoe verschillende entiteiten aan elkaar gerelateerd zijn.
Onderin zie je een andere mogelijkheid. Hier zijn de ontelbare Twitter-boodschappen gescand op filmrecensies. De uitkomsten zijn per film in een plaatje weergegeven. Zo zie je in één oogopslag hoe goed de films beoordeeld worden.
Bronnen: University of California, Berkeley (boven); FlixPulse.com (onder)
Grote vlucht
Text mining wordt al best veel gebruikt. Zo kiest Google met behulp van text mining welke advertentie het best geplaatst kan worden naast een ontvangen mailtje. En attenderen sociale netwerksites je op personen met dezelfde interesses als jij. De oorsprong van text mining ligt eigenlijk bij officiële instanties als de inlichtingendiensten. Zij gebruiken de techniek om in grote stapels gegevens te speuren naar aanwijzingen van fraude en criminaliteit. Ze weten dan nog niet precies wat ze zoeken, maar willen wel snel weten wat er in die documenten staat. Ook bedrijven gebruiken text mining om te peilen hoe hun product (of die van de concurrent) door de consumenten wordt ontvangen. Deze vorm van text mining heet opinion mining.
De nieuwe hoogleraar Text mining hoopt dat met zijn aanstelling de technologische ontwikkeling van text mining een grote vlucht zal nemen. Er bestaan verschillende manieren om de taalkundige analyse en de text mining uit te voeren. Deze manieren werken lang niet allemaal even goed. Er is zeker nog verbetering mogelijk. Professor Scholtes voorspelt dat in de toekomst nog veel meer mogelijk zal zijn met text mining. Websites zullen steeds interactiever worden, zodat de informatie die je te zien krijgt speciaal op jou is toegespitst.
Zie ook:
- OCR: Van papier naar scherm (Kennislinkartikel)
- Universiteit Maastricht – Faculty of Humanities and Sciences
Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/text-mining.atom", “max”=>"5", “detail”=>"normaal"}