Steeds meer informatie staat tegenwoordig online. Maar is al die informatie wel te vinden? Zoekmachines kunnen al effectief zoeken naar documenten, maar het zoeken naar entiteiten, zoals personen, werkt nog niet optimaal. Promovendus Balog van de Universiteit van Amsterdam introduceerde in zijn proefschrift twee nieuwe modellen om sneller en beter de juiste personen te vinden.
Digitale sporen
Het probleem van zoeken naar personen is dat een persoon geen verzameling woorden is. Een tekst is dat wel. Wanneer je een tekst zoekt voer je een aantal woorden in. Je vindt dan teksten waar die woorden in staan. Zo’n zoekopdracht is vrij simpel. Een persoon is helaas niet op dezelfde manier te vinden. Typ je een willekeurige naam in bij Google, dan vergt het vaak een hoop zoekwerk voordat je weet wat zijn expertise is.
Gelukkig laat die persoon wel digitale sporen na doordat zijn naam in teksten te vinden is. Het programma van Balog koppelt de informatie in die teksten automatisch aan een persoon. Balog ontwikkelde een methode om op basis van die digitale sporen een lijst van onderwerpen bij een persoon te maken. Het programma selecteert zo de persoon die aan een zoekvraag kan voldoen.
Net als de Gouden Gids kan een nieuw zoekprogramma voor intranet en internet mensen vinden op hun expertise. Het programma scant teksten op relevante woorden rondom de gezochte naam en herkent namen in een tekst.
Kredietcrisis
Balog introduceert twee manieren van informatieontsluiting. Enerzijds maakt zijn methode een lijst van experts bij een onderwerp. Anderzijds maakt het een lijst van onderwerpen bij een expert. Dit gaat met een combinatie van zogeheten generatieve taalmodellen en lerende algoritmen.
Generatieve taalmodellen leggen patronen bloot in het taalgebruik rondom personen en onderwerpen. Als de woorden ‘brandweer’, ‘vuur’ en ‘blussen’ veel gebruikt worden rondom de naam van een persoon, ligt het voor de hand dat diegene een brandweerman is. Daarnaast herkennen de lerende algoritmen personen en organisaties in teksten. Namen in een tekst over de kredietcrisis horen dan waarschijnlijk bij economen.
Sollicitanten
Een dergelijk zoeksysteem is niet alleen van nut binnen bedrijven, waar iemand snel moet uitzoeken wie de beste persoon voor een bepaalde opdracht is, maar ook voor contact tussen bedrijven en zelfs voor de grote zoekmachines. Zo kan een afdeling personeelszaken het zoeksysteem gebruiken om meer te weten te komen over sollicitanten, of kan journalist na gaan hoe hoog het milieu op de agenda van een politieke partij staat.