Je leest:

Onderzoek uitgelicht: informaticus Theo Gevers

Onderzoek uitgelicht: informaticus Theo Gevers

Auteur: | 27 maart 2007

Als u wel eens op het internet gezocht heeft naar die ene mooie zoenscène of de herhaling van dat prachtige doelpunt, dan weet u het: videobeelden terugvinden is niet makkelijk. Een Europees consortium onder leiding van Intelligent Systems Laboratory Amsterdam (ISLA), waarvoor informaticus Theo Gevers werkzaam is, is afgelopen zomer 2,8 miljoen euro toegezegd door de Europese Unie om hier iets aan te veranderen. In samenwerking met de beste onderzoeksgroepen uit heel Europa gaat ISLA de komende drie jaar een zoekmachine ontwerpen die videobeelden kan herkennen. Zodat over enkele jaren een videozoeksysteem met de juiste zoekterm die ene speciale scène tussen al die filmpjes op het internet vandaan kan plukken.

Het nieuwe programma moet een soort video-Google worden, waarmee je met een zoekvraag het juiste beeld of filmpje vindt. Het computerprogramma moet dus ontzettend veel concepten kennen. Een voetbalscène is nog redelijk gemakkelijk te herkennen, maar hoe maak je een computer iets abstracts duidelijk, als ‘wereldleider’, ‘twee handenschuddende mensen’ of nog extremer ‘liefde’ en ‘romantiek’? Gevers legt uit hoe dit in zijn werk gaat: ‘We moeten de computer iets leren. Als we willen dat het programma een uil kan herkennen, laten we heel veel plaatjes zien, waaronder veel plaatjes van uilen. Het programma gaat dan zelf op zoek naar kenmerken die specifiek zijn voor een uil.’

Theo Gevers Foto: Bob Bronshoff

Hierbij zal het programma gebruik gaan maken van de verschillende informatiebronnen die een beeld of videobestand op het internet biedt. ‘We kijken niet alleen naar de beelden zelf, maar we kijken ook of het gezochte begrip in de tekst er omheen voorkomt. Mogelijk is het filmpje ondertiteld of staat er andere tekst in de beelden. Bovendien willen we kijken naar zaken als spraakherkenning. Als we weten wat er wordt gezegd in het filmpje kunnen we ook in deze gesproken tekst zoeken. Het geluid zegt ook veel over de beelden. En wat natuurlijk erg belangrijk is; we kijken naar visuele informatie: of dingen bewegen, hoe kleuren zijn en hoe de overgangen zijn tussen kleuren.’

Gevers vertelt dat Google ook bezig is een videoretrieval-systeem te ontwikkelen. ‘Zij gaan alleen kijken naar de tekst die de video begeleidt. Niet alle videobeelden hebben echter een accurate beschrijving. Dus is Google nu een spelletje aan het ontwikkelen waarbij verschillende gebruikers zelf de video moeten beschrijven. Vervolgens nemen ze een intersectie van die beschrijvingen; ze moeten immers wel overeenkomen. Als hier honderdduizenden mensen aan mee gaan doen, dan heb je straks één beschrijving van de video, waarin je kunt zoeken naar relevante zoektermen.’ De methode van Google valt of staat dus met de omschrijvingen die de gebruikers zelf maken.

Molens

Gevers’ methode is niet afhankelijk van de beschrijvingskunsten van gebruikers, maar omvat nog wel ontzettend veel werk. Gelukkig hoeft hij niet vanuit het niets te beginnen. ‘We hebben al veel ervaring met het herkennen van beelden. Mijn groep is daar erg goed in. Zelf was ik een van de eersten die een zoeksysteem voor beelden maakte (zie onderstaande link). Daarvoor leek kleur me erg belangrijk.’ Voorheen werd er in zoeksystemen nauwelijks gebruik gemaakt van kleur. Dit omdat kleur erg afhankelijk is van de lichtbron. Een voorwerp heeft in de volle zon een heel andere kleur dan in tl-licht of bij het licht van een gloeilamp. Gevers ontwikkelde een programma dat hierop kan corrigeren. Hij tackelde ook het probleem van vorm-invariantie: een molen vanuit verschillende hoeken gezien, heeft steeds een heel andere vorm (zie onderstaande illustratie). Toch moet de computer in die verschillende vormen dezelfde molen herkennen.

Beelden opgenomen van een molen die per beeld 5 graden is gedraaid. Aangezien de molen vanuit verschillende hoeken is opgenomen, heeft het steeds een heel andere vorm. Toch moet de computer in die verschillende vormen dezelfde molen herkennen. Beelden zijn afkomstig van de Amsterdam library of Object Images [ALOI], Jan-Mark Geusebroek klik op de afbeelding voor een grotere versie

Eerst moet gecorrigeerd worden voor kleur en vervolgens kan het programma op zoek naar belangrijke kenmerken. ‘Dat zijn punten waar iets interessants gebeurt, bijvoorbeeld een kleurovergang of een hoekpunt. Rondom deze belangrijke punten gaan we informatie halen. Daarvoor zetten we er een ellips omheen (zie onderstaande illustratie). Deze geeft aan hoe groot de schaal van de belangrijke informatie is. Door de ellipsen op een cirkel te drukken, verkrijgen we schaalonafhankelijke kenmerken. We hebben nu allemaal even grote cirkels vol informatie. Een cirkel heeft bijvoorbeeld als informatie dat er wat blauw en rood in zit. We gaan vervolgens tellen hoe vaak zo’n cirkel met wat blauw en rood voorkomt. Wanneer we het programma heel veel beelden laten zien van een bepaald onderwerp, leert de computer welke cirkels bij dat onderwerp horen. Zo weet het programma ook welke punten belangrijk zijn voor dat onderwerp en kan hij in allerlei beelden op zoek gaan naar de juiste punten.’

Door de ellipsen op een cirkel te drukken, verkrijgen we schaal en rotatie onafhankelijke kenmerken. Afbeelding: Sietse Dijkstra klik op de afbeelding voor een grotere versie

Het laten zien van de gevonden filmpjes vormt ook nog een probleem. Want hoe kan de gebruiker tussen meerdere teruggevonden beelden, zijn filmpje vinden? Ook hierover denkt Gevers nog na. Bovendien maakt de verzameling beelden waaruit gekozen kan worden erg uit; zoeken in een serie nieuwsbeelden gaat veel makkelijker dan zoeken in een heleboel homevideo’s. ‘Het nieuws is namelijk in tegenstelling tot homevideo’s, erg gestructureerd. Om uit het journaal een voetbalwedstrijd te pikken, is dan ook goed te doen. Het groene gras en de bal zijn erg herkenbaar. Eenennegentig procent van de teruggevonden beelden is inderdaad zo’n wedstrijd. Met wereldleiders lukt het nog minder goed.’ Tussen de beelden die Gevers laat zien, staan inderdaad veel wereldleiders, meer dan de helft van de beelden klopt. De anderen zijn ook veel ‘mannen in pak’, maar dan geen wereldleiders. De software heeft blijkbaar onder andere geselecteerd op het kenmerk ‘stropdas’, hoewel dat niet uitsluitend specifiek is voor een wereldleider, zie plaatje. Gevers verontschuldigend: ‘Maar we kijken nu ook alleen nog maar naar visuele kenmerken.’

Mona Lisa

Naast de ontwikkeling van software om videobeelden op te sporen is Gevers druk met diverse andere projecten. Zo ontwikkelde hij samen met Nicu Sebe software om gezichtsuitdrukkingen te herkennen. ‘We willen de interactie tussen mens en machine verbeteren. Nu gebruiken we nog toetsenborden om met de computer te communiceren. Maar zou het niet veel handiger zijn om gewoon met je computer te kunnen praten? Dan is het prettig als de computer herkent hoe jij je voelt en daarop kan reageren.’ Gevers en Sebe lieten de software het gezicht van de Mona Lisa bestuderen en het bleek dat ze voor 83% vrolijk kijkt. Wereldwijd kreeg zijn groep veel aandacht voor zijn emotieherkenningssysteem. Inmiddels maken zijn studenten gebruik van deze software om computerspelletjes aan te sturen. ‘Misschien is het daarbij nog wel leuker om naar de gezichten van de spelers te kijken dan naar de spelletjes zelf’, lacht Gevers.

Foto: Bob Bronshoff klik op de afbeelding voor een grotere versie

Maatschappij

Dat Gevers onderzoek in deze richting doet heeft meerdere redenen. ‘Je moet onderzoek doen dat bij je past. Het moet niet te breed zijn. Maar het ligt ook aan het geld dat je binnen kunt krijgen. Ik kan alleen maar een aio aanstellen als ik daar het geld voor heb. Er moeten dus potjes voor zijn.’ Het Europese consortium onder leiding van ISLA is 2,8 miljoen toegezegd na een oproep van de Europese Unie voor video- en audio-onderzoek. ‘Je moet initiatief nemen en kunnen zien waaraan behoefte is. Daar link je dan datgene aan wat je zelf zou willen onderzoeken.’ Gevers’ onderzoek naar het ultieme videoretrieval-systeem lijkt dus een praktische reden te hebben. Toch heeft het ook een meer ideële achtergrond. ‘Uiteindelijk geloof ik dat het toegankelijk maken van informatie bijdraagt aan een betere wereld. Hoe meer informatie mensen tot zich kunnen nemen, hoe beter de maatschappij kan worden.’

Foto: Bob Bronshoff

Het zal nog wel even duren voordat Gevers’ video herkenningssysteem echt een bijdrage kan leveren aan deze betere wereld. Gevers is tevreden met het programma als het over drie jaar zo’n duizend concepten kan herkennen. ‘Als ik zelf iets op het internet moet opzoeken gebruik ik daar toch nog wel Google voor’, geeft hij lachend toe. ‘Voorlopig dan.’

Dit artikel is een publicatie van Universiteit van Amsterdam (UvA).
© Universiteit van Amsterdam (UvA), alle rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 27 maart 2007
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.