Je leest:

Skip die ‘balletjes breed’

Skip die ‘balletjes breed’

Je eigen samenvatting door interactieve Studio Sport

Auteur: | 8 juni 2010

Voor een computer is het maken van een voetbalsamenvatting nog niet zo simpel, maar Ewine Smits en Alan Hanjalic van de TU Delft komen in de buurt. Hun systeem gaat speciaal voor jou op zoek naar spannende momenten…

Je kent het wel. Helaas. Balletje breed, tikkie terug, het balletje rond laten gaan: het Nederlands Elftal staat er toch een beetje om bekend. En nét wanneer je denkt dat je wel even naar de wc kan, komt die lange pass en het schitterende doelpunt. Een samenvatting is wat dat betreft makkelijker. Hoewel, de redacteuren van Studio Sport moeten de wedstrijd daarvoor juist extra goed bekijken en van voor naar achter en weer terug doorspitten. Zou een computer dat niet van hen kunnen overnemen?

Dat was precies het idee van Ewine Smits en Alan Hanjalic van de TU Delft. Zij hebben namelijk een systeem ontwikkeld dat video’s van voetbalwedstrijden kan analyseren en samenvatten. Dit is niet het analyseren zoals Jan van Halst dat doet, want voor een samenvatting is dat niet nodig. Het systeem moet alleen zien te achterhalen of een bepaald fragment belangrijk is of niet.

Op basis van feiten of gevoelens

Was dat nou een shirtje of een rode kaart?

Het moeilijke van herkennen is dat er geen duidelijke definities zijn van de hoogtepunten. Een doelpunt ziet er telkens weer anders uit en wanneer kwalificeer je een actie als ‘mooi’? Ook het herkennen van een rode kaart is niet eenvoudig: een rood voetbalshirt ziet er van veraf hetzelfde uit als een rode kaart, dus een computer ziet véél rode kaarten bij Spanje – Zwitserland…

Om belangrijke fragmenten te vinden, kan een systeem de video cognitief analyseren. Cognitief wil zeggen ‘met je hersens’, dus als een computer op cognitief niveau naar de video kijkt, gaat hij uitzoeken wat er feitelijk te zien is. Het systeem moet dan zoeken naar doelpunten, rode kaarten, mooie acties, enzovoorts. Dit is echter heel lastig, want hoe herken je zo’n doelpunt of rode kaart? Een computer weet helemaal niet hoe die eruit zien!

Het systeem van Smits en Hanjalic analyseert daarom op een andere manier, namelijk niet cognitief, maar affectief. Het gaat dan niet zozeer om wat er te zien is, maar om wat de kijker zal ervaren: welke emotie wordt er door de beelden opgeroepen?

Bij het omschrijven van deze foto wordt het verschil tussen cognitief en affectief duidelijk. In het eerste geval zeg je ‘twee mensen aan het water bij zonsondergang’ en in het tweede geval ‘romantisch koppel’.
fotofreaks.de

Voorspellen van spanning

Wanneer het systeem de video-opname affectief analyseert, gaat het voor elk fragment proberen te voorspellen welke emotie het beeld oproept. Zit de kijker op het puntje van zijn stoel of zal hij ondertussen chips gaan pakken? Natuurlijk is dit lastig te voorspellen, maar Hanjalic legt uit dat er bepaalde kenmerken zijn waar het systeem op kan letten.

Hanjalic: “Van sommige geluids – en beeldkenmerken is bekend dat zij iets zeggen over de ‘opgewondenheid’ (arousal) van de kijker bij het zien van de beelden. Een goede arousal-voorspeller is bijvoorbeeld de hoeveelheid beweging. De regisseur kiest namelijk vaak voor een close-up als er een mooie actie gemaakt wordt, waardoor er veel beweging in beeld is. Door zo’n close-up is er meestal ook direct minder gras te zien. Hierdoor is ‘de hoeveelheid groen’ ook een goede aanwijzing.”

Ook ‘filmische kenmerken’ zijn volgens Hanjalic nuttig, zoals de afwisseling in fragmentlengte. “Als je steeds het hele veld ziet, gebeurt er waarschijnlijk weinig interessants. Aan de andere kant wordt een doelpunt met veel korte en lange fragmenten herhaalt.”

Ten slotte is er nog belangrijk geluidskenmerk: volume! “Dit kenmerk ligt voor de hand, want bij een spannend moment hoor je natuurlijk veel Oehs en Aahs.”

Dit is een filmpje met fragmenten uit de wedstrijd Nederland – Mexico (vriendschappelijk, 26 mei 2010). Zie je dat er veel beweging en weinig groen te zien is als het spannend wordt? Ook is er hard gejuich te horen bij de doelpunten.

Welke fragmenten gaan het worden?

Door de arousal op elk moment van de wedstrijd te voorspellen, maakt het systeem van Smits en Hanjalic een arousal curve. Deze grafiek laat zien hoe spannend de video steeds is: hoe hoger de piek, hoe interessanter het beeld. Het maken van de samenvatting is nu eenvoudig. Het systeem selecteert alleen díe stukjes die horen bij een hoge piek.

Op de arousal curve zie je waar in de video de spannende momenten zitten. De meeste opwinding ontstaat bij het doelpunt, maar ook de vrije trappen scoren hoog.
Smits en Hanjalic

Hanjalic: “De fragmenten worden in feite geselecteerd door het trekken van een horizontale lijn door de arousal curve. De hoogte van de lijn bepaald welke pieken hoog genoeg zijn: alles wat boven de threshold uit komt, wordt geselecteerd.”

Maar hoe hoog moet de piek zijn om het fragment te selecteren (op welke hoogte komt de threshold)? Dit kan worden bepaald aan de hand van de lengte van de samenvatting.

Wanneer je een korte samenvatting wilt zien, dan moeten alleen de fragmenten met een hele hoge piek worden toegelaten tot de samenvatting. Dit zijn tenslotte de momenten waarop er écht wat bijzonders gebeurt. Heb je tijd voor een wat langere samenvatting, dan kan het systeem meer stukjes selecteren. Dit betekent dat ook de iets minder interessante hoogtepunten mogen worden getoond. Het systeem selecteert in dat geval ook de fragmenten met een wat lagere piek op de arousal curve.

‘Goooaal’, ‘doelpunt’ of ‘score’

Door het maken van een arousal curve kan het systeem dus bepalen waar de hoogtepunten van de wedstrijd zitten. Het weet echter nog niet wát er op die momenten gebeurt! Hier hebben Smits en Hanjalic een interessante oplossing voor bedacht.

Hanjalic vertelt dat de kijkers zelf het systeem gaan vertellen wat er te zien is. “Iedereen kan tags invoeren, net als bij sites als Flickr en Facebook. De gebruiker bekijkt de voorselectie, de fragmenten die geselecteerd zijn op basis van de arousal curve, en kan tijdens het kijken intypen wat hij ziet. Op deze manier wordt de samenvatting steeds informatiever.”

Op dit screenshot van Flickr zie je dat er veel verschillende tags mogelijk zijn bij één foto. De termen omschrijven bijvoorbeeld niet alleen wat je ziet (‘dutch fans’), maar ook de plaats (‘Amsterdam ArenA’) en tijd (‘3/3/10’).

Smits en Hanjalic hebben al experimenten met dit systeem gedaan en het blijkt dat taggen onder het kijken goed te doen is. Er zijn wel veel verschillen tussen de gebruikers: sommige taggen 10 keer en andere 60 keer! Ook zijn sommige taggers wel erg creatief. Wat dacht je van ‘Goooaal’, ‘knoerthard’ en ‘group hug’?

Filmpje met zelfbediening

Het doel van Smits en Hanjalic is om zoveel mogelijk informatie aan te bieden, waarmee iedereen vervolgens zelf uit de voeten kan. Ze maken er daarom niet één samengesteld filmpje van, maar een interactieve applicatie.

Met de applicatie van Smits en Hanjalic kun je zelf kiezen welke stukken je bekijkt.
Smits en Hanjalic

Hierboven zie je de applicatie waar Smits en Hanjalic uiteindelijk op uit kwamen. “Uit experimenten bleek dat vooral controle belangrijk was. Daarom hebben we onder het scherm een interactieve tijdlijn toegevoegd”, aldus Hanjalic. “Op deze balk kun je zien welke fragmenten belangrijk zijn en welke tags daar zijn toegevoegd. Sommige tags kan de computer herkennen, zoals ‘goal’ of ‘rode kaart’. In dat geval zet hij een klein icoontje boven de tijdlijn, zodat je weet wat je op dat moment gebeurt.”

De applicatie kan worden bekeken in het Multimedia Information Retrieval Lab aan de TU Delft, waar Hanjalic de coördinator van is. Daarnaast zijn er concrete plannen om in samenwerking met een bedrijf deze applicatie verder te ontwikkelen en om te vormen naar een web portaal of een app voor je mobiel. Dus wie weet kun je tijdens het EK van 2012 zelf ‘Studio-Sportje spelen’!

Lees meer over beeldherkenning en video op Kennislink:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/video/beeldherkenning/index.atom?m=of", “max”=>"7", “detail”=>"minder"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 08 juni 2010

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.