Je leest:

Pepmiddelen, tests en spamfilters

Pepmiddelen, tests en spamfilters

Auteur: | 4 maart 2004

In veel topsporten worden tests gebruikt om het gebruik van verboden middelen op te sporen. Deze tests zijn over het algemeen niet waterdicht. Wat is de kans dat iemand die positief test ook daadwerkelijk doping heeft gebruikt? Deze vraag wordt beantwoord met de zogenaamde formule van Bayes. Met behulp van dezelfde formule worden filters gemaakt die spamberichten detecteren temidden van binnenkomende e-mails.

De bovenstaande kwestie kwam aan bod in vraag 16 van de Nationale Wetenschapsquiz van 2003. Die vraag luidde als volgt: Met een steekproef testen we de deelnemers aan de tiende Nationale Wetenschapsquiz op een verboden pepmiddel. Stel dat tien procent van de deelnemers het pepmiddel gebruikt. De test is slechts voor negentig procent zuiver. Eén deelnemer blijkt pep-positief. Hoe groot is de kans dat hij het pepmiddel daadwerkelijk heeft gebruikt? a) Minder dan vijftig procent. b) Vijftig procent. c) Meer dan vijftig procent.

Formulering

Om de bovenstaande vraag te beantwoorden, is wiskunde nodig. Om precies te zijn de tak van wiskunde die kansrekening heet. In tegenstelling tot veel andere soorten wiskunde kunnen vraagstukken over kansrekening vaak in gewone mensentaal geformuleerd worden. Als dit zorgvuldig gebeurt, is het een mooie manier om een probleem snel en duidelijk uit te leggen. Echter, gevaren liggen aan alle kanten op de loer. Een verkeerd woord, of soms zelfs alleen maar een andere intonatie, en het beschreven probleem kan volledig zijn veranderd.

Deze sterke afhankelijkheid van de formulering van het probleem wordt veroorzaakt doordat veel kansrekeningvraagstukken gaan over zogenaamde voorwaardelijke kansen. Hierbij is de aanwezige informatie van cruciaal belang. Verander je de informatie een klein beetje, bijvoorbeeld door een iets te losse formulering, dan kan het probleem aanzienlijk veranderen. Een mooi voorbeeld hiervan is het zogenaamde vader-zoon probleem (zie Vader en zoon?).

Vader en zoon?

1. Een vader heeft twee kinderen. Hij heeft minstens één zoontje. Wat is de kans dat hij ook een dochtertje heeft?

2. Een vader heeft twee kinderen. Je ziet hem lopen met één van zijn kinderen, een jongetje. Wat is de kans dat het andere kind een dochtertje is?

Het verschil tussen deze twee vragen is ogenschijnlijk heel klein. De antwoorden zijn echter verschillend: 2/3 en 1/2!

Wetenschapsquiz

Dit stuk gaat over de onzorgvuldige formulering van de vraag én antwoord over kansrekening in de Wetenschapsquiz van 2003. Het beschrijft de knelpunten en geeft degelijkere antwoorden.

Het antwoord op de vraag in de quiz is b), vijftig procent. De makers van de vraag bedoelden echter waarschijnlijk iets anders dan de formulering doet vermoeden. Deze verwarring is ook duidelijk bij de antwoorden die gegeven worden door de makers van de quiz. Tijdens de TV-uitzending werd als verklaring voor het antwoord iets gemompeld over de formule van Bayes.

Op de website van de organisator van de quiz, NWO, staat echter een andere uitleg, namelijk de volgende. We nemen 100 deelnemers, daarvan zijn 10 gebruikers en 90 schoon. Van de 10 gebruikers zal de test er 9 terecht als gebruiker aanwijzen en 1 ten onrechte als schoon. En van de 90 schone deelnemers zullen er 81 terecht als schoon worden bestempeld en 9 ten onrechte als gebruiker. In totaal slaat de test dus 18 keer alarm. Ofwel, het lijkt of 18 deelnemers pep-positief zijn. Van die groep hebben 9 deelnemers daadwerkelijk gebruikt. Dus de kans dat een volgens de test pep-positieve daadwerkelijk het pepmiddel heeft gebruikt, is vijftig procent.

In de rest van het stuk worden zowel deze antwoorden als de vraagstelling onder de loep genomen.

Uitgeklede kansen

Als je de vraag in de wetenschapsquiz letterlijk neemt, dan weet je al hoeveel mensen er positief zijn, en hoeveel daarvan er ook werkelijk positief zijn ( “stel dat tien procent…”). Het aantal schone gebruikers dat niet-schoon wordt getest is dan inderdaad gelijk aan het aantal niet-schone gebruikers dat niet-schoon wordt getest, namelijk allebei 9% van het aantal deelnemers. Het aantal personen dat niet-schoon test is dus even.

Dit is echter in tegenspraak met het woord “één” in de vraagstelling! Aannemende dat dit woord een vergissing is en er helemaal niet thuishoort, luidt de oplossing als volgt. Als nu willekeurig één persoon wordt gepakt uit de groep van personen die niet-schoon zijn getest, dan zal deze met kans 0,5 ook daadwerkelijk niet-schoon zijn.

In deze oplossing van de vraag blijft er bijna geen kansrekening meer over. De vraag is of dit ook de bedoeling van de bedenkers van de vraag was. Het scenario dat je al weet hoeveel mensen schoon zijn, en wat de uitkomsten van de dopingtests zijn, is immers niet erg aannemelijk.

Een sausje van kansrekening

Een tweede manier om een vraag als die in de wetenschapsquiz te bekijken, is door er een sausje van kansrekening over te gieten. Dit kan door alle percentages als kansen te gebruiken, en werkt als volgt.

Neem aan dat de deelnemers aan de quizuit een enorme populatie komen. Van deze populatie is bekend dat 10 procent van de mensen pepmiddelen gebruikt. Verder is bekend dat bij het testen van een willekeurig individu uit de populatie de test in 90 procent van de gevallen de goede uitslag geeft. Dit zijn wezenlijk andere aannames dan in het geval van uitgeklede kansen: hier is de aanname dat de percentages gelden voor een enorme populatie waaruit een aantal deelnemers getrokken wordt, i.p.v. voor het (kleine) groepje deelnemers zelf.

Omdat de populatie heel groot is, en het aantal deelnemers aan de wetenschapsquiz relatief klein, wordt aangenomen dat de percentages schone en niet-schone individuen in de populatie niet verandert wanneer er een aantal deelnemers wordt getrokken. De percentages gelden dan ook per deelnemer, i.e. elke deelnemer is schoon met kans 9/10 en als hij getest wordt, geeft de test de juiste beoordeling met kans 9/10.

Oftewel, bij elke persoon kun je met twee (niet-eerlijke) muntjes gooien. Het eerste muntje geeft aan of de persoon schoon is (‘kop’), of niet (‘munt’). De kans op `kop’ is 9/10. Het tweede muntje laat zien of de test de goede uitslag geeft. Ook dit gebeurt met kans 9/10. De uitkomsten van de muntjes zijn onafhankelijk.

Merk op dat deze situatie wezenlijk anders is dan die beschreven in de vorige paragraaf, waar al bekend was hoeveel deelnemers er positief waren. In dit geval is het alleen bekend voor de enorme populatie waaruit de deelnemers komen.

Voorwaardelijke kansen en de formule van Bayes

Nu wordt willekeurig één deelnemer geselecteerd. In kansrekeningjargon heten de mogelijke uitkomsten (van een experiment) gebeurtenissen. Noem de gebeurtenis dat een deelnemer gebruiker is A. Dan heeft A kans 1/10 (notatie P( A) = 1/10). Noem B de gebeurtenis dat de test aangeeft dat de deelnemer niet-schoon is. Het gegeven dat de test voor negentig procent zuiver is, betekent dat in het geval dat de deelnemer doping heeft gebruikt, de test met kans 9/10 aangeeft dat de deelnemer gebruikt.

In de kansrekening heet dit de voorwaardelijke kans op B gegeven A, notatie P ( B| A) (zie De formule van Bayes). Deze kans is dus gelijk aan 9/10. De vraag in de quiz is nu: wat is de kans op A, gegeven B, dus P( A| B)?

De formule van BayesDe voorwaardelijke kans P( A| B) is gedefinieerd als P( A én B treden op) / P( B), waarbij P( B) positief moet zijn. De zogenaamde formule van Bayes geeft de volgende relatie (hierboven) tussen de twee soorten voorwaardelijke kansen. Hier staat Ac voor het complement van A, i.e., de gebeurtenis dat A niet optreedt. De formule van Bayes is af te leiden uit de definitie van voorwaardelijke kans en het feit dat P( B) = P( B én A) + P ( B én Ac).Thomas Bayes (1702-1761) was een Engelse dominee. Na zijn dood verschenen enkele wiskundige artikelen van zijn hand, waaronder het stuk “Essay towards solving a problem in the doctrine of chance” over kansrekening.

In dit geval is Ac de gebeurtenis dat de deelnemer niet gebruikt. Uit de gegevens volgt dan dat P( Ac) = 0,9 en P( B| Ac) = 0,1. Invullen in de formule van Bayes geeft:

Merk op dat ook in dit geval het woordje één in de vraagstelling in de wetenschapsquiz niet op zijn plaats is, en dus dient te worden genegeerd.

Meer tests en andere percentages

In dit geval geven beide methodes, zowel die met de uitgeklede als die met de voorwaardelijke kansen, hetzelfde antwoord op de quizvraag, namelijk 1/2. Dit is echter niet altijd zo: wanneer de vraag zou gaan over twee of meer geteste deelnemers, dan zijn de antwoorden verschillend. Bij het model met de voorwaardelijke kansen zijn de uitkomsten van twee deelnemers onafhankelijk. Dit betekent dat de kans dat twee deelnemers niet-schoon testen en het ook niet zijn, gelijk is aan 1/2 × 1/2 = 1/4. In het geval van de uitgeklede kansen zijn de uitkomsten van de tests van de deelnemer echter niet afhankelijk. Een veel ingewikkeldere berekening is dan nodig. De kans is dan kleiner dan 1/4, en hangt bovendien af van het aantal deelnemers.

Verder zou je kunnen vermoeden dat het antwoord op een vraag als die in de quiz altijd 1/2 is. Niets is echter minder waar. Stel dat de test 99% betrouwbaar is, maar dat het percentage gebruikers veel kleiner is, namelijk 1 op de 10.000. Met behulp van de formule van Bayes kan je uitrekenen dat de kans dat iemand die ‘niet-schoon’ test ook daadwerkelijk niet-schoon is, heel erg klein is, namelijk 1/102 (ga na!).

Vals-positief en vals-negatief

Een ander punt van kritiek, tenslotte, is het volgende. Bij een test zijn twee soorten fouten mogelijk: de test geeft aan dat de persoon schoon is, terwijl hij dit niet is (vals-negatief), of de test geeft aan dat de persoon niet schoon is, terwijl hij wel schoon is (vals-positief). Deze fouten zijn van een heel ander type.

Alleen in een heel enkel geval zullen de kansen op deze twee fouten hetzelfde zijn. Bovendien is een fout van de ene soort kostbaarder dan een fout van de andere soort. Immers, iemand ten onrechte als dopingzondaar aanwijzen is veel ernstiger dan een schuldige (voorlopig) laten lopen. In de Wetenschapsquiz zijn deze wezenlijk verschillende fouten helaas op één hoop gegooid met de woorden “de test is voor negentig procent zuiver”.

Spamfilters

De formule van Bayes wordt ook gebruikt in spamfilters, programma’s die binnenkomende e-mails controleren en proberen eventuele spamberichten eruit te filteren. Deze Bayesiaanse filters werken als volgt. Een Bayesiaans filter moet eerst getraind worden. Het krijgt bijvoorbeeld duizend voorbeelden te zien van spamberichten en duizend voorbeelden van normale e-mails. Neem aan dat het woordje ‘seks’ voorkomt in 950 van de spamberichten, en in 50 van de niet-spamberichten. Een tweede aanname is dat er op dit moment evenveel spamberichten als normale e-mails verstuurd worden. Met behulp van de formule van Bayes (wat zijn nu de gebeurtenissen A en B?) kun je laten zien dat een bericht met het woordje ‘seks’ erin met kans 95/100 spam is. Hetzelfde procede geldt voor combinaties van woorden. Echter, het woord ‘seks’ kan ook voorkomen in reguliere berichten, bijvoorbeeld in berichten over onderzoek naar de verspreiding van AIDS. Een Bayesiaans filter kijkt daarom ook naar de andere woorden in de e-mail. Als bijvoorbeeld één van de duizend spamberichten de woorden AIDS, seks en ‘verspreiding’ bevat, en ook één van de duizend niet-spamberichten, dan concludeert het filter weer met de formule van Bayes dat een bericht met deze drie woorden met kans 1/2 een spambericht is. In het algemeen zal het bericht dan worden doorgelaten, afhankelijk van de persoonlijke instelling van het filter.

Viagra kopen? Nieuwe haardos, daten of gokken via het internet? Je kunt het zo gek niet bedenken, of het wordt je wel ongevraagd aangeboden. Naar schatting bestaat meer dan 60% van alle verstuurde e-mail ondertussen uit spam.

Ten opzichte van filters die bestaan uit zwarte lijsten van afzenders, hebben Bayesiaanse filters het voordeel dat ze alleen kijken naar de inhoud. Zo worden spamberichten die worden gestuurd vanuit elke keer e-mailadressen evengoed geweerd. Verder zijn Bayesiaanse filters flexibeler dan filters die alle e-mails die bepaalde woorden bevatten, bijvoorbeeld ‘viagra’, resoluut verwijderen. Ze kunnen immers e-mails die besmette woorden bevatten toch doorlaten, als daar aanleiding toe is.

Het filter kan ook steeds beter worden, door het de beoordeling van nieuwe berichten te laten voeren. Bovendien kan het Bayesiaanse filter worden afgestemd op de voorkeur van de gebruiker: de gebruiker kan instellen welk risico hij wil lopen dat een gewoon e-mailtje ten onrechte wordt gebrandmerkt als spam.

Helaas hebben Bayesiaanse filters ook een zwak punt: als een spambericht naast de spamboodschap ook een heleboel ingewikkelde woorden bevat die normaliter alleen in serieuze emails voorkomen, dan wordt het filter gesaboteerd. Een spambericht zal door deze stoorzenders een veel grotere kans hebben om doorgelaten te worden.

Drs. Misja Nuyens promoveert in mei 2004 aan de Universiteit van Amsterdam op een onderwerp in de kansrekening.

Meer weten:

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 04 maart 2004
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.