Je leest:

De computer begrijpt je in Web3.0

De computer begrijpt je in Web3.0

Auteur: | 2 oktober 2008

Het Amerikaanse bedrijf Cognition heeft een groot Engelstalig semantisch netwerk op de markt gebracht. Volgens hen staat nu niets meer de komst van het Semantische Web3.0 in weg. Hoogleraar Piek Vossen van de VU Amsterdam denkt echter dat het nog wel even zal duren voor computers onze taal kunnen begrijpen.

Sinds het ontstaan van Web 2.0 is het niet meer alleen mogelijk om teksten te lezen op internet, maar kun je er ook actief aan deelnemen. Je kunt je vriendennetwerk uitbreiden met Hyves, je filmpjes met de rest van de wereld delen via YouTube of meeschrijven aan een encyclopedie bij Wikipedia. Maar Web 3.0 staat alweer voor de deur. Over een tijdje zal de computer je taal kunnen begrijpen en zal hij met je meedenken terwijl je surft over het wereld wijde web.

Vorige week heeft het Amerikaanse technologiebedrijf Cognition een groot semantisch netwerk op de markt gebracht. In een semantisch netwerk zijn alle woorden van een taal met hun betekenissen en onderlinge relaties in kaart gebracht. In de onderstaande figuur kun je een voorbeeld zien van een eenvoudig netwerk. In werkelijkheid zijn semantische netwerken nog veel uitgebreider en zijn woorden op veel verschillende manieren met elkaar verbonden.

Hiernaast zie je een visuele weergave van het semantisch netwerk rondom het Engelse ‘word’. Voor deze afbeelding is gebruik gemaakt van WordNet, een groot semantisch netwerk voor het Engels. WordNet is ontwikkeld aan Princeton University (VS). Klik op de afbeelding voor een vergroting.

Ontologie

Het semantisch netwerk van Cognition zegt het grootste netwerk ooit gemaakt te zijn. Het bevat meer dan een half miljoen (Engelse) woordstammen. Ter vergelijking: de gemiddelde Amerikaanse student kent zo’n 40.000 woorden. Dankzij zulke semantische netwerken weet de computer straks niet alleen welke woorden synoniemen van elkaar zijn, maar ook hoe verschillende woorden zich tot elkaar verhouden. Dit wordt weergegeven in een zogeheten ontologie, een hiërarchische structuur. Zo wordt duidelijk gemaakt dat een kuiken een jong van een kip is, een zadel een onderdeel van een fiets is en een tante de zus van een vader of moeder is. In het netwerk zijn ook van ieder woord de mogelijke morfologische vervoegingen opgenomen. Dit zijn afleidingen van de woordstam, zoals werkwoordsvervoegingen en meervouden. Hierdoor weet de computer dat ‘was’ van het werkwoord ‘zijn’ afkomt en ‘informatie’ nauw verwant is met ‘informeren’.

Als software een semantisch netwerk gebruikt, kan de computer de semantische informatie van woorden gebruiken om de gebruiker beter van dienst te zijn. Een zoekmachine zoekt dan bijvoorbeeld niet meer alleen op de zoekterm die jij hebt opgegeven, maar gaat ook zoeken naar synoniemen of andere verwante termen. Automatische vertaalsoftware gaat nu nog vaak de fout in, doordat van woorden met meerdere betekenissen de verkeerde wordt gekozen. Met een semantisch netwerk kan de software uit de context opmaken welke betekenis bedoeld wordt en zo de juiste vertaling kiezen. Ook kunnen automatische spraakherkenners spraak beter verstaan als ze uit de context kunnen opmaken welk woord het meest waarschijnlijk is om gebruikt te worden.

Als woorden in een taal meerdere betekenissen hebben, is het voor een computer erg lastig om de juiste vertaling te kiezen. Een computer begrijpt immers niet de context waarin het woord voorkomt. Dit kan leiden tot grappige menukaarten… Bron: www.engrish.com

EuroWordNet

Een semantisch netwerk voor het Nederlands is beschikbaar in het EuroWordNet-project, waarin netwerken van verschillende Europese talen onderling met elkaar verbonden zijn. Het Nederlandse WordNet bevat 91.000 woorden en 110.000 betekenissen. Piek Vossen, hoogleraar Computationele lexicografie aan de Vrije Universiteit in Amsterdam heeft dit project gecoördineerd. Volgens Piek loopt Cognition wel erg op de zaken vooruit. “Web3.0 is alleen mogelijk als natuurlijke taal begrepen kan worden en dat gaat nog wel even duren.” Wereldwijd werken honderden centra aan het ontwikkelen van deze natural language processing.

Cornetto

Het bouwen en onderhouden van een semantisch netwerk kost veel tijd en expertise. Onlangs is Cornetto afgerond, een STEVIN-project van de Nederlandse Taalunie dat zich hier mee bezig hield, maar hier moet volgens Vossen nog altijd veel aan gebeuren. Het blijft erg lastig om woordbetekenissen objectief vast te stellen. Toch werken de wetenschappers stug door om er te komen. “Semantic Web 3.0 toepassingen zullen mondjesmaat ontwikkeld worden in de komende jaren, maar de bulk van de webdata en -communicatie zal gewoon tekst zijn die we ‘begoogelen’ op de bekende manier.”, aldus Piek Vossen.

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/semantiek.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 02 oktober 2008

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.