Je leest:

Doorbraak in het zoeken door ‘onleesbare’ teksten

Doorbraak in het zoeken door ‘onleesbare’ teksten

Onderzoekers van de Rijksuniversiteit Groningen hebben een techniek ontwikkeld om snel relevante informatie te filteren. Het gaat dan om lappen tekst die helemaal niet geschreven zijn om van a tot z te lezen. Dankzij de nieuwe methode kunnen nu ook nauwelijks gestructureerde teksten, losse notities en intern bedoelde documenten worden gescand. De bedenker van deze vorm van kunstmatige intelligentie is Ashwin Ittoo. Hij verwacht dat de algoritmen die hij heeft ontwikkeld zeer breed toepasbaar zijn, tot zoekmachines als Google aan toe. Ittoo promoveert op 5 januari 2012 aan de Faculteit Economie en Bedrijfskunde.

Voor een computer is het vinden van woordjes of combinaties daarvan in grote hoeveelheden tekst heel eenvoudig. Maar om een computer een tekst te laten begrijpen en er een conclusie uit te laten destilleren, is een techniek die nog sterk in ontwikkeling is.

Dat vereist zogeheten Natural Language Processing (NLP), een zijtak van kunstmatige intelligentie. Zo was het heel bijzonder toen de Watson-supercomputer van IBM een klein jaar geleden in staat bleek quizvragen beter te begrijpen en te beantwoorden dan de mens.

Kladjes

Niet geheel toevallig werkte informaticus Ittoo aan vergelijkbare technieken als het Watson-project, want NLP vormde daarvoor de grondslag. Zijn algoritmes ontsluiten echter een enorme hoeveelheid extra informatie. Het was al mogelijk een computer goed leesbare teksten, zoals nieuwsberichten en wetenschappelijke artikelen, te laten begrijpen en er relevante informatie aan te onttrekken. Maar deze tekstanalyse kan nu ook worden toegepast op in telegramstijl geschreven informele kladjes, vol spel- en grammaticafouten, zoals klachtenformulieren van klanten of interne memo’s. Ittoo testte en ontwikkelde zijn zoekalgoritmes onder meer bij Philips Health Care en Bang&Olufsen. Beide bedrijven gebruiken inmiddels prototypes van zijn zoektechniek om hun bedrijfsinformatie, bijvoorbeeld over klanttevredenheid, te verfijnen.

Terrorismebestrijding

Hoewel de techniek is ontwikkeld bij bedrijven in consumentenelektronica, is deze veel breder toepasbaar, onder meer in medische dossiers, in financiële documenten, in terrorismebestrijding en in zoekmachines.

Ittoo stelt vast dat zoeken via Google vaak zeer veel resultaten oplevert, waardoor de behoefte bestaat die trefzeker te kunnen filteren. Hij verwacht dat zijn algoritmes daarbij behulpzaam zijn.

De verfijning van de bestaande NLP-technieken is niet alleen een wetenschappelijke stap voorwaarts, maar ook een commercieel interessante vinding. Alleen al in de Verenigde Staten wordt de markt voor dit soort tekstanalyse geschat op $ 835 mln. En het aantal gebruikers van de benodigde software steeg in 2010 met 25%. Daarom streeft Ittoo naar spoedige commerciële toepassing van zijn algoritmes. Die zijn nu specifiek voor de Engelse taal ontwikkeld, maar ze zijn toepasbaar voor elke taal, als daar maar een goed model voor bestaat.

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/taaltechnologie.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van Rijksuniversiteit Groningen (RUG).
© Rijksuniversiteit Groningen (RUG), alle rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 03 januari 2012

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.