Je leest:

Poulen met EK-koorts

Poulen met EK-koorts

Miljoenen Nederlanders zullen in de aanloop naar Euro 2008 meedoen met een EK-poule. Bij EK-­poules gaat het erom dat men meer uitslagen juist weet te raden dan de andere deelnemers. Volgens de berekeningen staat Nederland in de kwartfinale.

Zoals bekend is het Nederlandse voetbalelftal ingedeeld in de zogenaamde poule des doods, samen met de WK-­finalisten Italië en Frankrijk, en Roemenië, winnaar van dezelfde groep als Nederland tijdens de kwalificatievoorronde van het Europese kampioenschap. Hier zal worden ingegaan op het voorspellen van de voetbaluitslagen van de groepswedstrijden en welke teams zullen doorgaan naar de kwartfinales. Een voorspelling over wie de topscorer wordt, wie de finalisten worden en welk land kampioen zal worden blijft achterwege. De kwaliteit van de voorspellingen hangt af van de kwaliteit van de gebruikte data en de gebruikte methode.

…Op grond van in het verleden gespeelde Europese wedstrijden is Nederland favoriet in poule C…

Geloof het of niet, Nederland topfavoriet in poule C

Op de site van de UEFA (de Europese voetbalbond) staat voor elk team op basis van in het (verre) verleden gespeelde Europese wedstrijden een competition record (Tabel 1). Volgens deze lijst heeft bijvoorbeeld Nederland van de 117 wedstrijden er 72 gewonnen, 22 gelijkgespeeld en 23 verloren. Tellen we een gelijkspel als half winst, dan is het winpercentage voor Nederland gelijk aan 71 procent, zelfs hoger dan van de andere landen in deze poule. Nederland heeft in deze wedstrijden 241 keer gescoord en 91 doelpunten geïncasseerd, wat neerkomt op een scorend vermogen (μ) van 2,06 doelpunten per wedstrijd en een incasserend vermogen (v) van 0,78 per wedstrijd. Ook deze kengetallen zijn beter dan van de anderen in Poule C, dus op grond van deze data is Nederland niet de underdog maar de favoriet in deze poule.

Merk op dat bijna alle zestien landen, met uitzondering van Turkije, een hoger scorend dan incasserend vermogen hebben (μ/v>1). De oorzaak hiervan is dat de landen die zich voor deze eindronde hebben gekwalificeerd overwegend sterke teams zijn. In de onderste rij valt af te lezen dat over alle 1478 wedstrijden in totaal 2605 doelpunten vóór zijn gemaakt, ofwel 1,76 per wedstrijd tegenover 0,99 doelpunten tegen per wedstrijd. Het gemiddeld aantal doelpunten per wedstrijd, ofwel de overall scoring context, is dan 1,76 + 0,99 = 2,75. In de voorlaatste kolom (s) is de landenspecifieke scoring context gegeven, waarbij s = μ + v. De overall scoring context voor een sport heeft een enorme impact op de competitive balance, de mate waarin teams aan elkaar gewaagd zijn.

In basketbal vallen per wedstrijd gemiddeld meer dan honderd doelpunten, dus de scoring context is zeer hoog. Kleine verschillen in de sterkte tussen teams vertalen zich dan in grote verschillen in winpercentages en dus een lage competitive balance. Bij een lage scoring context daarentegen heeft het zwakkere team een veel grotere kans om niet te verliezen, bijvoorbeeld omdat de wedstrijd eindigt in 0-0, door een geluksdoelpunt of door arbitrale missers. Door de lage scoring context in het voetbal is het mogelijk dat een relatief zwak land als Griekenland Europees kampioen werd in 2004, door in de finalerondes drie keer op rij met 1-0 te winnen van de sterkere landen Frankrijk, Tsjechië en Portugal.

Hoe gaan we dit aanpakken?

Hoewel er meerdere methoden zijn om voorspellingen op basis van geaggregeerde data te genereren worden hier de kansen op doelpunten geschat met behulp van de onafhankelijke Poissonverdeling (Kader 1). Kenmerkend voor deze verdeling is dat het optreden van een gebeurtenis, een doelpunt in een bepaald tijdsinterval, relatief zeldzaam, willekeurig en niet gerelateerd is aan voorgaande gebeurtenissen. Deze methode is uitermate geschikt om de kans op een bepaalde uitslag te voorspellen. Stel dat men wil weten wat de beste voorspelling is voor de eerste wedstrijd van Nederland tegen Italië. De stochastische variabele van het aantal doelpunten gescoord door Nederland hangt dan niet alleen af van het scorend vermogen van Nederland, maar ook van het incasserend vermogen van Italië. Daarnaast is ook de scoring context voor deze wedstrijd van belang.

Enkele haken en ogen

Op zowel de kwaliteit van de gebruikte data als de methode valt het een en ander af te dingen. Wat betreft de data zou het beter zijn geweest als er gegevens zouden zijn geweest over een groot aantal recent gespeelde wedstrijden tussen twee teams die in de poulefase tegen elkaar uitkomen, maar deze data zijn niet voorhanden omdat twee teams maar eens in de zoveel jaar tegen elkaar loten. Een andere dataset, bijvoorbeeld op basis van meer recente gegevens, genereert andere uitkomsten. Wat betreft de methode van de onafhankelijke Poissonverdeling is de voornaamste beperking dat als Italië tegen Nederland eerst scoort, dat dan de kans op een tweede doelpunt voor Italië of een tegendoelpunt van Nederland onafhankelijk is van het eerste doelpunt.

Met andere woorden, het wedstrijdverloop doet er niet toe, terwijl een 1-0­ voorsprong voor Italië zelden uit handen wordt gegeven. Ook het thuisvoordeel voor Zwitserland en Oostenrijk is niet meegenomen. Gegeven deze beperkingen worden hieronder de volgende voorspellingen gegenereerd: per wedstrijd in de poulefase de kansen op winst, verlies en gelijkspel, de meest waarschijnlijke uitslagen met de bijbehorende kansen, Het verwachte aantal doelpunten voor en tegen, en de teams die zich zullen kwalificeren voor de kwartfinales.

Scorend vermogen alléén is niet genoeg

In tabel 2 zijn op basis van de scoringsintensiteiten μ en v voor elk land en de landenspecifieke scoring contextvariabele s uit tabel 1 de wedstrijdspecifieke Poissonparameters μ* en v* berekend. Voor de wedstrijd Nederland-Italië is de parameter μ* berekend als het gemiddeld scorend vermogen van Nederland (2,06) maal het gemiddeld incasserend vermogen van Italië (0,69) gedeeld door de helft van de gemiddelde landenspecifieke scoring context 0,5×((2,84 + 2,27)/2).

We nemen de helft van de gemiddelde scoring context omdat de nieuwe parameters samen weer bij benadering gelijk moeten zijn aan de gemiddelde scoring context. Het scorend vermogen van Nederland in deze wedstrijd (μ* = 1,12) is wedstrijdspecifiek omdat de waarde afhangt van de geaggregeerde gegevens voor beide landen, maar niet van de andere landen. Merk op dat het scorend en incasserend vermogen van Nederland verschilt per wedstrijd: tegen Italië is het lager dan tegen Frankrijk en Roemenië omdat het incasserend vermogen van Italië lager is.

Analoog wordt het scorend vermogen van Italië (v* = 0,96) voor deze wedstrijd bepaald door het scorend vermogen van Italië (1,58), het incasserend vermogen van Nederland (0,78) en de scoring context voor deze wedstrijd. Met dit paar parameters kan de kans op een bepaalde uitslag worden berekend. Bijvoorbeeld, de kans op de uitslag 2-1 is gelijk aan het product van P(N=2) en P(I=1). Voor de bepaling van de kansen zijn alleen de uitslagen met per wedstrijd maximaal zeven doelpunten of minder meegenomen, omdat de kansen op bijvoorbeeld 8-0, 5-3 of 4-4 verwaarloosbaar klein zijn.

…Niet alleen het scorend vermogen wordt meegenomen in het model, ook het incasserend vermogen van een team…

Hoge of lage uitslag voorspellen?

Bij de kolommen Winst, Verlies en Gelijkspel wordt bijvoorbeeld de kans op een gelijkspel berekend door de kansen op de uitslagen 0-0, 1-1, 2-2 en 3-3 te sommeren. De kolom U* geeft de meest waarschijnlijke uitslagen en P* de bijbehorende kansen. Wat opvalt aan deze lijst, zeker als iemand dit zou invullen in een poule, is dat ze nogal aan de eentonige kant is. Van de 24 wedstrijden eindigen er maar liefst elf in 1-0, nog eens tien in 1-1 en drie in 2-0.

In totaal vallen er volgens deze lijst slechts 37 doelpunten in 24 wedstrijden, ofwel gemiddeld 1,5 doelpunt per wedstrijd, wat veel minder is dan de overall scoring context. De oorzaak hiervan is dat naast de meest waarschijnlijke uitslag er nog een hele waaier minder waarschijnlijke uitslagen zijn met veelal meer doelpunten maar elk met een lagere kans. Voor Nederland-Italië is 1-0 de meest waarschijnlijke uitslag met een kans van 14,0 procent en alleen de uitslag 0-0 met 12,5 procent heeft minder doelpunten; alle andere uitslagen zoals 1-1 (13,4 procent), 2-0 (7,8 procent), 3-0 (2,9 procent) et cetera hebben meer doelpunten.

Dat deelnemers aan poules doorgaans kiezen voor een wat feestelijker lijst van minder waarschijnlijke uitslagen met meer doelpunten kan mogelijk hieruit worden verklaard dat men dan tijdens de wedstrijd langer in de race blijft. Bij een voorspelde uitslag van 0-0 of 1-0 is het al gedaan als Italië scoort, maar bij 2-2 blijft tot het einde toe de kans open dat het uitkomt. In de sporteconomie staat dit bekend als de longshot bias. Een andere reden is dat meer extreme uitslagen de kans verhogen dat de pot niet gedeeld hoeft te worden met andere winnaars.

Poule C veruit de spannendste

De laatste twee kolommen van tabel 2 geven per wedstrijd de verwachtingswaarde van het aantal gescoorde doelpunten voor en tegen (GF* en GA*). Deze wordt verkregen wordt verkregen door per wedstrijd alle (36, want gemakshalve beperkt tot maximaal zeven doelpunten per wedstrijd) mogelijke uitkomsten te wegen met de kansen. Voor de wedstrijd Nederland-Italië zijn de verwachtingswaarden 1,11 doelpunt voor Nederland en 0,95 doelpunt voor Italië. Afgerond is de uitslag op basis van de verwachtingswaarden 1-1, maar deze uitslag heeft een lagere kans (13,4 procent) dan de meest waarschijnlijke uitslag 1-0 (14,0 procent).

Als men in de poule maar één uitslag mag invullen, is toch de eerste te verkiezen boven de laatste. De verwachtingswaarden kunnen echter worden gebruikt voor weddenschappen bij bookmakers waarbij men het aantal doelpunten in een wedstrijd moet voorspellen, of het aantal doelpunten voor of tegen per team. Merk op dat het totaal aantal volgens de verwachtingswaarden gescoorde doelpunten (60,2) veel hoger ligt dan volgens de lijst meest waarschijnlijke uitslagen (37).

Poule C, ook statistisch de poule des doods.

In de laatste kolom van Tabel 1 is voor elk land het verwachte aantal wedstrijdpunten gegeven, waarbij winst met drie en een gelijkspel met één punt is gewaardeerd. Poule C is veruit de spannendste (de standaardafwijking in het puntentotaal is slechts 0,4) terwijl poule A op voorhand als het minst spannend kan worden aangemerkt (standaardafwijking 1,6). Volgens deze berekeningen en het wedstrijdschema na de poulefase, waarbij de winnaar van poule A moet spelen tegen de runner­up van poule B, zijn de kwartfinales Tsjechië-Kroatië, Duitsland-Portugal, Nederland-Rusland en Spanje-Italië.

Wedden dat…

Bookmakers zoals BetExplorer en Unibet publiceren zogenaamde odd ratios. Bij BetExplorer zijn voor de wedstrijd Nederland-Italië de odds op Winst, Verlies en Gelijkspel gelijk aan 2,90, 2,40 en 3,06. Als men een euro inzet op winst dan wordt 2,9 euro uitgekeerd als Nederland inderdaad wint. Volgens de berekeningen in tabel 2 zijn de kansen op Winst, Verlies en Gelijkspel gelijk aan 39,1 procent, 30,9 procent en 30,0 procent, samen 100 procent. De actuariële fair odds kunnen worden berekend door de reciproque te nemen, dus 1/0,391 = 2,56, 1/0,309 = 3,23 en 1/0,300 = 3,33.

Omdat de bookmakers winst moeten maken zijn hun odds niet fair, want de som van hun impliciete kansen (1/2,90 + 1/2,40 + 1/3,06) = (0,345 + 0,417 + 0,327) = 108,9 procent. Het surplus van 8,9 procent wordt wel de overround of de vig genoemd en is een belangrijk bestanddeel van de winst voor de bookmakers (naast het exploiteren van de biases onder deelnemers, zoals de longshot bias).

Ondanks de overround is het soms mogelijk dat een bepaalde odd van de bookmaker hoger is dan de fair odd, ofwel de bookmaker schat de kans lager in dan de feitelijke kans en keert ten gevolge daarvan te veel uit bij het optreden van de gebeurtenis. Voor Nederland-Italië is dit het geval voor Winst: gegeven een feitelijke kans van 39,1 procent zou per ingelegde euro de faire uitkering 2,56 euro bedragen, maar de bookmaker keert 2,90 euro uit. Per ingelegde euro is de verwachte winst 0,391 × 2,9 – 1= 0,13 ofwel 13 cent. Hierbij moet wel worden bedacht dat bookmakers waarschijnlijk verschillende, en meer geavanceerde, methoden combineren, om de systematische fouten van de ene methode uit te middelen met die van andere, om de odds te bepalen.

Duitsland favoriet bij de bookmakers, Nederland ingeschaald als gedeeld 6e. Poulegenoten Italië, Frankrijk en Roemenië staan respectievelijk als 3e, 5e en 14e genoteerd.

Daarnaast hebben ze de beschikking over meer accurate data en zullen experts indien nodig de parameters bijstellen op grond van fingerspitzengefühl. Het op het laatste moment afhaken van Clarence Seedorf voor het EK kan tot gevolg hebben dat de parameters van Nederland worden bijgesteld. Niettemin komen twintig van de 24 uitslagen overeen met de laagst genoteerde odds bij bookmaker Ladbrokes. Ten slotte dekken bookmakers zich in tegen deelnemers die systematisch de bookmaker proberen te verslaan door bepalingen op te nemen van maximaal uit te keren bedragen.

Conclusie

Het voorspellen van voetbaluitslagen blijft koffiedik kijken. De kans dat alle hier voorspelde uitslagen fout zijn is vele malen groter dan de kans dat alle goed zijn. Bij EK-­poules gaat het echter niet om alle dertien goed, zoals bij de Toto, maar dat men meer uitslagen juist weet te raden dan de andere deelnemers. Ondanks alle beperkingen is de kans zeer reëel dat enkele uitslagen goed zijn. Naast de hierboven genoemde beperkingen produceren ook de scheidsrechters veel ruis door het nemen van foutieve maar cruciale beslissingen. Ook de laatste pouleduels kunnen om strategische redenen, zoals het aansturen op een 0-0, anders worden gespeeld dan in de Poissonverdeling voor doelpunten is verondersteld.

Literatuur

Zie ook:

Dit artikel is een publicatie van Economisch Statistische Berichten (ESB).
© Economisch Statistische Berichten (ESB), alle rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 03 juni 2008
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.