Spinoza-premie voor Leidse statisticus Aad van der Vaart. De kansrekening van het genoom en Big Data

Aad van der Vaart ontwikkelt statistische technieken om PET-scans te verbeteren en het verband te ontrafelen tussen je genenpakket en de kans dat je kanker krijgt. En mogelijk, in de nabije toekomst, welk medicijn dus het best bij je past. De Nederlandse organisatie voor Wetenschappelijk Onderzoek ondersteunt deze zogeheten non-parametrische Bayesiaanse statistiek nu met een Spinoza-premie.

12 juni 2015

Aad van der Vaart moet nog even bedenken wat hij met het geld gaat doen, want zijn Europese ERC-beurs van 2,2 miljoen euro uit 2012 is nog niet op. Daar komt de 2,5 miljoen euro Spinoza-premie nu dus bij. “Ik wil die in ieder geval voor een deel inzetten om het onderwijs in de statistiek te verbeteren. Een idee is om samen met het Leids Universitair Medisch Centrum (LUMC) en Sociale Wetenschappen een master-opleiding Statistical Science op te zetten. In Nederland bestaat zo’n opleiding nog niet.”

Een miljoen is in de wiskunde al een hoop geld. In zijn specialisme, de stochastiek (kansberekening), gaat het leeuwendeel van het geld op aan personeel: promovendi, post-docs en overige onderzoekers. Enorme computers zijn niet nodig. Van der Vaart: “Zelf programmeer ik niet veel, sommige van mijn promovendi wel. Maar dat kan op een PC. Uiteindelijk bewijst het nooit wat, maar het kan je helpen inzicht te krijgen.”

Zijn werkkamer ziet uit op de binnenplaats van het Leidse Mathematisch Instituut, een vierkant gebouw waar altijd de rust van een stiltecoupé heerst. In tientallen kamertjes aan de lange, rechte gangen wordt diep nagedacht, mag je aannemen. Onderzoek aan non-parametrische Bayesiaanse statistiek, hoe gaat dat?

“Ik schrijf wat op een schoolbord, dan kan je een beetje rondlopen en in jezelf praten. Maar vaak gebeurt dat ook in kleine groepjes,” aldus Van der Vaart. “Uiteindelijk is het resultaat, zoals altijd in de wiskunde, een stelling en een bewijs.”

PET-scan verbeterd

Helemaal vanzelfsprekend is dat niet, aangezien statistiek een bij uitstek toepasbare – je zou bijna zeggen ‘dienstbare’ – tak van de wiskunde is. Zo hielp Van der Vaart methodes verbeteren om PET-scans om te zetten in afbeeldingen. Bij een PET-scan krijgt een patiënt een heel kortlevende radioactieve stof ingespoten, die zich bij voorkeur ophoopt in tumorcellen, omdat die relatief veel voedingstoffen verbruiken. De radioactieve atomen vervallen spontaan, en bij elk verval ontstaan (via een tussenstap) twee gammafotonen die precies in tegengestelde richting worden uitgezonden.

De PET-scanner bestaat uit een ring van detectors, die alleen een hit registreren als twee detectors tegelijkertijd afgaan. Het atoom dat verviel, kan overal op de rechte lijn tussen die twee detectoren gelegen hebben. Er is geen directe methode om de plek op die lijn nader te bepalen. Toch wil je zo exact mogelijk reconstrueren hoe de concentratie van de radioactieve stof verdeeld zat. Behalve het normale patroon van activiteit krijg je dan hopelijk ook in beeld waar een tumor zit in – bijvoorbeeld – de hersenen van de patiënt.

Helaas worden gammafotonen soms verstrooid door omliggend weefsel, zodat ze een valse richting aangeven. Ook natuurlijke straling uit de omgeving zorgt voor ruis. Je moet dus uit een grote, rommelige, tweedimensionale set data een 3D-beeld reconstrueren van iemands hersenactiviteit. In het meest algemene geval is dit probleem niet oplosbaar; dat wil zeggen, er zijn talloze verschillende 3D-patronen van hersenactiviteit die aan de buitenkant dezelfde data in de detectors opleveren.

Maar met bepaalde aannames over wat het beeld kan zijn, vind je wel een oplossing die hoogstwaarschijnlijk dicht bij het ‘ware’ 3D-beeld zit. Eén van die aannames is dat je een mens in je scanner hebt en geen krokodil. Je weet dus vrij nauwkeurig de vorm en grootte van de schedel en de positie van de hersenen.

Bayesiaans

Hier doet het Bayesiaanse principe in de statistiek zijn intrede: er is altijd een prior, een vooronderstelling. Vervolgens komen data binnen, op grond waarvan je de prior bijstelt. Wat uiteindelijk leidt tot de posterior. In dit geval het plaatje van de hersenen. Met de Bayesiaanse methode kun je een gedetailleerder beeld uit de PET-scan halen dan met gewone statistische methoden. Maar over de kans op fouten – dat uit het plaatje een tumor opduikt die niet echt bestaat – was in de tijd dat Van der Vaart met zijn onderzoek op dit gebied begon weinig bekend, omdat de theorie nog niet genoeg ontwikkeld was.

Van der Vaart: “Als wiskundige wil je, behalve een methode verzinnen, ook weten hoe goed die is.” In het ideale geval kun je wiskundig bewijzen hoe groot de afwijking maximaal kan zijn, en hoe vaak afwijkingen van een zekere grootte voor zullen komen.

Non-parametrisch

Van der Vaart en andere statistici denken meestal op een nog abstracter niveau na over dergelijke zaken. Gegeven een grote dataset in een veel-dimensionale ruimte: welke informatie kun je daar uit halen? Die dataruimte kan zelfs oneindig veel dimensies hebben. Door wetmatigheden af te leiden die in zulke ruimtes gelden, worden praktische problemen in zeer veel (duizenden) dimensies hanteerbaar. Met de opkomst van Big Data, de vloed van gigabytes die internet, sociale media en automatische sensoren opleveren, moeten zulke methoden nodig verder worden ontwikkeld.

Maar wat betekent ‘non-parametrisch’? Het simpelste voorbeeld van een statistisch model, wat bijna iedereen kent, is het trekken van de beste rechte lijn door een puntenwolk. Dat zou een grafiek kunnen zijn van de lengte en het lichaamsgewicht van een groep proefpersonen. Dit model heeft slechts twee parameters – vrij instelbare getallen – namelijk de helling van de lijn en zijn snijpunt met een van de assen. Maar in veel gevallen is er geen rechtvaardiging om een rechte lijn door een puntenwolk te willen trekken, misschien is een parabool wel beter, een kromme lijn met drie parameters. En waarom zou je ophouden bij drie? Misschien liggen al je datapunten wel op een enorm ingewikkelde kromme die door zeven of dertien parameters wordt beschreven.

Structuur in chaos

Een betere methode is, om grote datasets te vangen in modellen waarvan het aantal parameters niet van tevoren vastgelegd is. Bekijk als voorbeeld onderstaande afbeeldingen.

Op het eerste gezicht lijkt het een vierkant vol chaos, een willekeurige opvulling met zwarte en witte blokjes. Toch zie je, wanneer je goed kijkt, nog wel wat structuur doorschemeren. Kun je in dit vierkant effectief een donker centrum van een lichtere omgeving afgrenzen met één gesloten contour? Hoe grillig mag die contour zijn om zoveel mogelijk zwarte blokjes binnenboord te krijgen?

Of is het beter om meerdere donkere clusters in een lichte omgeving te onderscheiden? Zo ja, hoeveel zwarter worden die clusters naarmate je er meer onderscheidt? Welk klompje zwart is nog een echt cluster en wat is een toevallige fluctuatie?

Hoe ingewikkelder je de onderverdeling maakt, des te meer parameters je model heeft. Het hangt van het soort data af en waar je naar zoekt of het zin heeft om je model nog verder te verfijnen. Non-parametrische Bayesiaanse statistiek zoekt in datasets met in principe willekeurig veel dimensies naar procedures en technieken om hier zinnige uitspraken over te doen.

Tumorcellen

Dat klinkt abstract, maar het heeft direct praktische toepassingen, bijvoorbeeld het verband ontrafelen tussen iemands genen en allerlei eigenschappen of kwalen. Een mens heeft ongeveer dertigduizend genen, waarvan er, afhankelijk van het moment en in welke lichaamscel je kijkt, enige duizenden actief zijn. Stel nu dat je bij tienduizend kankerpatiënten een stel tumorcellen afneemt en voor duizend genen in hun DNA analyseert welke daarvan actief zijn. Dat kan tegenwoordig snel en relatief goedkoop.

Dan zijn bij de tumor van patiënt 0001, heel simpel gezegd, de genen nr. 23, 481, 492, 503,…. actief, en bij de tumor van patiënt 0002 de genen 114, 209, 355, 481, …. Bij geen twee tumoren zullen de setjes actieve genen helemaal identiek zijn, maar enige overeenkomst zal er tussen verreweg de meeste paren tumoren wel zijn. Misschien zijn er een paar genen die in alle tumoren actief zijn. Maar wat betekent dat? Hoeveel overeenkomst moet je vinden, wil er sprake zijn van een echte cluster van ‘kankergenen’, in plaats van een toevallige overeenkomst? Soortgelijk onderzoek zou je kunnen doen bij mensen met Alzheimer, of met een hartziekte.

De stip op de horizon voor dit type onderzoek is personalized medicine. Als van een patiënt precies bekend is welke relevante genen gemuteerd zijn en slecht functioneren, kun je op het individu toegesneden medicijnen en behandelingen geven die veel effectiever zijn dan wanneer iedereen dezelfde pil voor dezelfde kwaal krijgt.

“Daarvan werd vijftien jaar geleden aangekondigd dat het er over tien jaar zou zijn,” constateert Van der Vaart droogjes. “Je hebt heel veel genen, maar je weet dat er voor een bepaalde eigenschap of ziekte maar een paar relevant zijn. Als je daar onderzoek aan gaat doen, krijg je een hoog-dimensionale data-set waarvan bijna alle elementen nul zijn (een sparse dataset, waarbij sparse zoiets betekent als ‘dungezaaid’). Wat kan je daar mee doen? Daar is tot een jaar of tien geleden niet over nagedacht.” Sindsdien is de Bayesiaanse statistiek van grote datasets een stuk verder ontwikkeld, maar er valt op dit gebied nog veel nieuws te ontdekken. De Spinoza-premie zal daar de komende vijf jaar aan gaan bijdragen.

De Spinozawinnaars van dit jaar zijn…

René Janssen, hoogleraar Molecular Materials and Nanosystems aan de Technische Universiteit Eindhoven.
Birgit Meyer, hoogleraar Religious Studies aan de Universiteit Utrecht.
Aad van der Vaart, hoogleraar Stochastics aan de Universiteit Leiden.
Cisca Wijmenga, hoogleraar Human Genetics aan de Rijksuniversiteit Groningen.