Een computer die taal begrijpt -en dus kennis heeft van semantiek- kan veel dingen die computers nu nog niet kunnen. Zo zouden zoekmachines je in de toekomst direct een antwoord op een vraag kunnen geven. Nu moet je daar nog zelf naar op zoek in een lijst met websites waarop je zoekterm voorkomt. Ook is het goed mogelijk dat we in de toekomst regelmatig met een virtuele personal assistent te maken krijgen. Deze kan ons bijvoorbeeld uitleg geven bij ons huiswerk of individueel advies geven als we ziek zijn. Klinkt misschien als verre toekomstmuziek, maar zo lang hoeven we waarschijnlijk niet meer op deze toepassingen te wachten.
Never-Ending Language Learning

Over de hele wereld zijn wetenschappers bezig met het bedenken van manieren om computers taal te laten begrijpen. En sommigen zijn daar al een heel eind mee opgeschoten. IBM heeft bijvoorbeeld Watson ontwikkeld, een computer die mensen kan verslaan in de tv-quiz Jeopardy! Dit systeem kijkt welke woorden opvallend vaak in dezelfde context voorkomen en concludeert daaruit dat ze iets met elkaar te maken hebben. Eén nadeel: Watson heeft geen idee hoe de verschillende woorden precies aan elkaar gerelateerd zijn. Je kunt je dus afvragen hoe slim hij nou werkelijk is.
Onderzoekers van Carnegie Mellon University werken nu al enkele maanden aan een systeem dat meer te vergelijken is met de manier waarop mensen hun kennis opdoen. Hun Never-Ending Language Learning system (NELL) deelt woorden in verschillende categorieën in en herkent ook verschillende relaties. Zo begrijpt hij dat ‘Brad Pitt’ en ‘Cameron Diaz’ beide tot de categorie ‘acteurs’ behoren. En dat ‘Brad Pitt’ en ‘Fight Club’ aan elkaar gerelateerd zijn, omdat de acteur in die film gespeeld heeft.
Regels bijstellen
NELL begon niet helemaal blanco aan zijn taak. Teamleider Tom Mitchell en zijn collega’s hebben het systeem eerst voorzien van basiskennis door van elke categorie en relatie alvast tien tot vijftien voorbeelden te geven. In de categorie ‘emoties’ stond bijvoorbeeld al ‘woede is een emotie’ en ‘vreugde is een emotie’. Met deze kennis op zak ging NELL vervolgens aan de slag.
NELL zoekt naar patronen en correlaties in zijn kennis en stelt op basis daarvan regels op. Vervolgens pakt hij een nieuwe tekst en probeert deze te analyseren op basis van die regels. Deze nieuw opgedane kennis neemt hij gelijk mee in zijn patroonherkenning, dus de opgestelde regels zijn steeds gebaseerd op de laatstgeleerde stand van zaken. Zoals een kind steeds meer leert door voort te bouwen op eerder opgedane kennis, doet NELL dat dus ook.

Een voorbeeld
NELL komt het zinsdeel ‘Pikes Peak’ tegen. Twee woorden, beide met een hoofdletter en de laatste is ‘Peak’: grote kans dat het om een berg gaat. NELL kijkt ook naar de context. ‘Pikes Peak’ blijkt voor te komen in zinnen als ‘I climbed XXX’. Volgens zijn regels duidt ook dat op een berg, dus NELL deelt ‘Pikes Peak’ in de categorie ‘bergen’ in. Vervolgens komt hij de zin ‘I climbed stairs’ tegen. Volgens zijn regels zou ‘stairs’ dus ook een berg moeten zijn, maar dat woord stond eigenlijk al in de categorie ‘onderdelen van gebouwen’. Blijkbaar kloppen zijn regels niet helemaal, dus NELL stelt deze een beetje bij en is in de toekomst iets minder zeker dat ‘I climbed XXX’ op een berg duidt.
Zelfgebakken cookies
NELL draait nu sinds het begin van dit jaar, 24 uur per dag en 7 dagen per week. Hij kent al meer dan 390.000 feiten verdeeld over 280 categorieën en 280 relaties. Sinds het begin van het project is het aantal categorieën al verdubbeld en het zal altijd blijven groeien. NELL heeft het in 87% van de gevallen bij het rechte eind.
Na een half jaar moesten de onderzoekers ingrijpen om ervoor te zorgen dat het systeem op het juiste spoor bleef, vertelt projectleider Mitchell in de New York Times. Sinds juni lopen de onderzoekers elke twee weken alle categorieën en relaties vijf minuten na. De fouten die ze tegenkomen zetten ze recht en NELL kan weer gezond verder.
Toen Mitchell onlangs op deze manier de categorie ‘gebakken voedsel’ naliep, vond hij naast taarten, broden, cakes en koekjes ook ‘internet cookies’. NELL was dit woord onder andere tegengekomen in de zin ‘I deleted my internet cookies’. Dus toen hij de zin ‘I deleted my files’ analyseerde, besloot hij dat ‘files’ ook in de categorie ‘gebakken voedsel’ thuis hoorde. Zo kan NELL flink ontsporen als de onderzoekers niet af en toe een oogje in het zeil houden.
Mitchell hoopt dat er ooit een computersysteem zal komen dat helemaal zelfstandig kan leren, zonder hulp van buitenaf. “We zijn er nog niet,” aldus de projectleider. “Maar jij en ik kunnen geïsoleerd van de buitenwereld ook niet leren.” Mitchell geeft twee voorbeelden: ‘Het meisje ving de vlinder met de stippen’ en ‘het meisje ving de vlinder met het net’. Mensen weten automatisch dat ‘de stippen’ bij ‘de vlinder’ hoort en ‘het net’ bij ‘het meisje’. Zo ver is NELL nog niet; net als bij mensen heeft dat gewoon wat tijd nodig.
Zie ook:
Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/semantiek.atom", “max”=>"5", “detail”=>"normaal"}