Je leest:

Taaltechnologie doorbreekt taalbarrières

Taaltechnologie doorbreekt taalbarrières

Het belang van taaltechnologie voor een meertalig Europa

Auteur: | 1 juli 2011

Op 27 en 28 juni vond in Boedapest het META-forum 2011 plaats, een groot internationaal congres over taaltechnologie. Wetenschappers uit heel Europa bogen zich over de betekenis van taaltechnologie voor de toekomst van nationale en regionale talen in Europa.

De Europese Unie telt 23 officiële talen. Regionale talen meegeteld kom je op ruim 60 talen. En omdat steeds meer mensen hun plekje veroveren op het internet, zijn bijna al die talen te vinden op het web. Ze bieden een schat aan informatie: behalve voor dagelijks gekeuvel worden sociale media bijvoorbeeld steeds meer ingezet voor belangwekkende discussies over de toekomst van Europa. Die discussies worden vaak vertroebeld door taalbarrières.

Professor Jan Odijk (Utrecht) vertegenwoordigde Nederland tijdens het META-forum 2011.

Om die taalbarrières weg te nemen, zijn goede vertaalprogramma’s nodig. En hoewel de kwaliteit van automatische vertalingen vooruitgaat, kan er nog veel verbeterd worden. Hierover en meer spraken onderzoekers, beleidsmakers en mensen uit het bedrijfsleven deze week op een congres in Boedapest.

Het congres (META-forum 2011) werd georganiseerd door een netwerk van 47 onderzoekscentra in 31 landen. Centraal stond de discussie hoe we met taaltechnologie de meertaligheid in Europa veilig kunnen stellen.

Digitale corpora

Een van de problemen van het huidige onderzoek op het gebied van taaltechnologie, is dat het zich vaak beperkt tot het Engels. Veel kleine talen – zowel nationale als regionale talen – vallen daarmee buiten de boot. Immers, als taaltechnologie ook voor deze talen beschikbaar komt, kunnen ze veel makkelijker meeliften op de economische voordelen van het internet. Speciaal voor dit congres schreven vooraanstaande onderzoekers rapporten over de status van alle EU-talen. Professor Jan Odijk uit Utrecht schreef een rapport voor het Nederlands dat hij tijdens het congres naar voren bracht.

Volgens Odijk scoren Nederland en Vlaanderen zeker niet slecht als het gaat om het ontwikkelen van taaltechnologische toepassingen. “Maar het is ook duidelijk dat er nog grote gaten op te vullen zijn om het Nederlands een volwaardige plaats te laten krijgen in de digitale informatiemaatschappij”, aldus Odijk. Hij legt uit dat er nog meer digitale corpora nodig zijn om taaltechnologische toepassingen te verbeteren. Wil je een computer een taal leren dan moet deze immers over een grote hoeveelheid data beschikken. “Het bestaan en de kwaliteit van zulke taalbronnen varieert van taal tot taal”, legt Odijk uit: “Het hangt af van het commerciële belang van de taal en de problemen die de taal stelt voor automatische verwerking en het onderzoek dat er al aan gewijd is”.

Een voorbeeld van een digitaal corpus van de Nederlandse taal is het Corpus Gesproken Nederlands. De woorden in dit corpus werden automatisch voorzien van woordsoortinformatie. Dit ging niet altijd foutloos. Studenten van de Radboud Universiteit keken de annotaties na en verbeterden ze al dat nodig was.

Hindernissen

En hoewel het onderzoek hier van hoog niveau is, zijn er nog een aantal hindernissen te nemen. Zo heeft het Nederlands een paar eigenschappen die automatische verwerking lastig maken. Odijk: “Kijk maar eens wat Google doet met werkwoorden met scheidbare partikels.” Het gaat om werkwoorden waarbij allemaal informatie tussen het werkwoord en het partikel terecht kan komen, zoals bij uitstellen en ophouden. Hij stelt dat telefoontje nu al veel te lang uit, of: hij houdt er maar niet over op. Dit soort werkwoorden is daardoor heel moeilijk te traceren met een automatisch vertaalsysteem. Ook voor zoeksystemen die proberen te begrijpen wat er in een tekst staat, zoals de supercomputer Watson, zijn scheidbare werkwoorden lastig te interpreteren.

Maar hoe vaker de computer dit soort woorden tegenkomt, hoe makkelijker hij ze zal herkennen. Er moeten dus nog meer digitale corpora komen, voorzien van de juiste annotaties. De kwaliteit van automatisch vertalen kan ook een stuk verbeterd worden door onderzoek naar betere technologie, meent Odijk: “Nu is hét moment om te investeren in taal- en spraaktechnologie, zodat de positie van iedere Europese taal in de digitale informatiemaatschappij gewaarborgd is.”

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/taaltechnologie.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 01 juli 2011

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.