Om de samenstelling van het menselijke microbioom te achterhalen, was men tot zo’n twintig jaar geleden nog afhankelijk van het kweken van afzonderlijke organismen op een voedingsbodem, zover dat überhaupt mogelijk was. Met de huidige DNA-sequencingtechnieken kunnen we nu alle organismen in het microbioom tegelijk bekijken door simpelweg al het DNA uit een (darm)monster te extraheren en te sequencen.
Dit noemen heet metagenomics. Deze aanpak levert een grote berg DNA-sequenties op waarvan voor de verwerking, analyse en interpretatie de inzet van vele computerprogramma’s, algoritmes, statistiek en bioinformatici nodig zijn. Met metagenomics kunnen we niet alleen te weten komen welke bacteriën in een monster zitten, maar ook welke eiwitten ze maken en welke reacties ze katalyseren.
Identificeren van bacteriën en schimmels
Een veel gebruikte methode is markergebaseerde metagenomics. Hierbij wordt een specifiek stuk DNA (marker) van het bacteriële of schimmelgenoom gesequenced om de micro-organismen te identificeren. Voor bacteriën is het 16S RNA-gen een geschikte marker. Dit gen is aanwezig in alle bacteriën, en kan omdat het voor elke bacteriesoort net iets verschilt, gebruikt worden om bacteriën in een monster te identificeren.
Daarvoor wordt het DNA van het 16S RNA-gen van alle aanwezige bacteriën in het monster eerst met de polymerasekettingreactie (PCR) vermenigvuldigd zodat er genoeg is om te analyseren. Van die DNA-fragmenten wordt de sequentie bepaald. Speciale computerprogramma’s kunnen de 16S RNA-sequenties vergelijken (alignen) met de gegevens in databanken en zo bepalen om welke bacteriën het gaat.
Op het genoom van schimmels ligt ook een specifiek DNA-gebiedje, de ITS-regio genaamd (internal transcribed spacer), waarmee de diversiteit van schimmels in een microbioom kan worden bepaald. In tegenstelling tot het bacteriële 16S RNA-gen, dat zo’n 1.500 basenparen lang is, kan de ITS-regio variëren van 500 – 1.000 basenparen en is evolutionair minder geconserveerd. Dat maakt de voorspelling van de origine van een ITS fragment minder betrouwbaar, vooral als het gaat om een tot nu toe onbekende schimmel.
Het is ook mogelijk om aan de hand van één specifiek gen, analoog aan het 16S RNA-gen, in te zoomen op één bepaalde bacteriesoort (marker-gensequencing) in een monster. Hiermee kun je binnen de bacteriesoort bepalen welk stamtype er in welk percentage aanwezig is in het microbioom.
Dat is nog een lastige klus want de diversiteit is groot. Bijvoorbeeld, de darmbacterie Escherichia coli kan als bacteriesoort wel 40.000 gen-families bevatten, terwijl het genoom van een enkele E. coli bacteriestam maximaal zo’n 5.000 genen bevat. Hiervan zijn circa 2.000 genen geconserveerd en die vormen het zogenaamde kerngenoom. De andere 3.000 genen variëren sterk per betreffende bacteriestam, maar zijn wel heel erg belangrijk omdat sommige E. coli-stammen beruchte ziekteverwekkers zijn, zoals EHEC of E. coli O157:H7, terwijl anderen geen enkel kwaad doen.
Totaal microbioomanalyse
Een andere methode is shotgun sequencing, waarbij de DNA-sequenties van al het geëxtraheerde DNA uit een monster, dus zowel van de bacteriën, schimmels, virussen als de gastheer, in een keer worden bepaald. Om een idee te krijgen van de complexe microbiële diversiteit van een monster moeten er veel DNA-fragmenten worden afgelezen. Bijvoorbeeld met de Illumina sequencingmethode worden er dan typisch 20 – 200 miljoen fragmenten van 100 – 250 basenparen bepaald. Het voordeel van deze aanpak is dat het zowel informatie oplevert over welke micro-organismen er in het monster zitten als over hun gemeenschappelijke genetische repertoire aan moleculaire functies.
Die functies worden voorspeld door de sequentie van het metagenoom te vergelijken met databanken waar genen met bekende functies in zijn opgeslagen, zodat je de functies die gecodeerd zijn in het metagenoom kan voorspellen. Zo kan je bijvoorbeeld een beeld krijgen van het collectieve metabole potentieel van het microbioom. Meer over DNA-sequencing kun je lezen in het BWM cahier Genen en gezondheid.
Door de grote hoeveelheid afgelezen DNA-sequenties (reads) vergt dataverwerking van shotgun sequencing veel rekentijd en is zeer bewerkelijk. Assemblageprogramma’s voegen gedeeltelijk overlappende reads eerst samen tot grotere DNA-fragmenten (contigs). Hoe meer reads er van een bepaalde DNA-regio zijn, hoe beter dat gaat. Van grotere DNA-fragmenten is het daarna makkelijker een precieze match te vinden in de databank. Bacteriële genen zijn gemiddeld 1000 baseparen lang. Hoe langer de afgelezen of geassembleerde DNA-sequentie (reads en contigs) is, hoe groter de kans dat een gen in zijn geheel erop gecodeerd ligt en hoe beter de functie van dat gen kan worden voorspeld.

Bacteriën die veel voorkomen in het monster springen er snel uit. Om ook de bacteriën die in lage hoeveelheden voor komen te vinden, kan er iteratief worden geassembleerd. De meest voorkomende en geassembleerde DNA-sequenties worden weggehaald, zodat DNA-fragmenten van minder frequent voorkomende bacteriesoorten te voorschijn komen. De fractie reads die niet (iteratief) geassembleerd worden moet apart bekeken worden en vergeleken met een databank. Het is verstandig om shotgun metagenomics te doen wanneer een biologische vraag niet op te lossen is met 16S RNA of soortspecifieke marker-sequencing. Bijvoorbeeld als je wilt weten welke antibioticaresistentie in het microbioom van een patiënt aanwezig is, om daar de behandeling op af te stemmen.
Standaardisatie: orde in de janboel
De mogelijkheden om metagenomicsdata te analyseren en te interpreteren zijn eindeloos waardoor er nog geen standaardisatie heeft plaatsgevonden voor het opslaan van analyse- en interpretatieresultaten. De 16S RNA-gensequencing is als techniek het meest uitontwikkeld, maar standaardisatie van de ruwe gegevens is ver te zoeken. Dat komt om dat onderzoeksgroepen vaak gebruik maken van hun eigen primerset, stukjes DNA die als startpunt dienen bij de polymerasekettingreactie (PCR), waardoor het vergelijken van data verkregen in verschillende onderzoeksgroepen erg lastig is.
Het 16S RNA-gen is ongeveer 1.500 basenparen lang en bestaat uit geconserveerde en variabele regio’s die per bacterie verschillen. Bepaalde geconserveerde gedeelten worden gebruikt om PCR-primers te ontwerpen, om daarmee een aantal variabele regio’s van het 16S RNA-gen te vermenigvuldigen en de sequentie ervan te bepalen. Als een of meerdere variabele gedeelten bekend zijn, kun je bacteriën van elkaar onderscheiden. Gemiddeld worden zo’n 300 basenparen met PCR vermenigvuldigd. Welke 300 basenparen van de 1.500 van het 16S gen je daarvoor uitkiest is cruciaal. Hoe goed dat onderscheid (de fylogenetische resolutie) is, verschilt per variabele regio.

16S rRNA van Escherichia coli.
Center for Molecular Biology of RNA, University of California, Santa Cruz
Bijvoorbeeld op basis van een bepaalde variabele regio kan Staphylococcus aureus goed worden onderscheiden van andere stafylokokken, maar bij andere variabele regio’s kan dat helemaal niet en kan je hooguit achterhalen dat het uit een stafylokok afkomstig is. Jammer genoeg is de regio met de beste fylogenetische resolutie verschillend voor verschillende bacteriesoorten en is er dus geen mogelijkheid om met één specifieke regio alle bacteriën te onderscheiden. Om 16S RNA datasets die zijn verkregen met verschillende primersets te vergelijken moeten alle datasets apart worden uitgewerkt, waarna je de verkregen microbioomsamenstelling naderhand kunt vergelijken.
Omdat bij shotgun metagenomics geen PCR-stappen en geen primers nodig zijn is de standaardisatie op basis van de ruwe sequentiedata eenvoudiger. Daar staat tegenover dat het vergelijken van de eindresultaten van shotgun metagenomics juist weer heel lastig is omdat die eindresultaten sterk afhangen van de gebruikte assemblagemethoden en databanken die tijdens de dataverwerking worden gebruikt. Het ‘Minimum Information about any (X) Sequence’ (MIxS) project van het Genomic Standards Consortium beoogt een eerste stap in de richting van standaardisatie te zetten.
Knelpunten bij het ontrafelen van data
Al bij het bepalen van de sequenties kunnen er fouten in de analyse sluipen omdat de machines waarmee de DNA-sequenties worden bepaald niet foutloos zijn. Afhankelijk van de techniek kan de frequentie van sequentiefouten variëren van 0.1% foute (Illumina) tot ongeveer 20% foute basenparen (single-molecule-sequencing). Speciale softwarepakketten kunnen deze fouten deels weer verwijderen.
Wat betreft de bioinformatica valt of staat het eindresultaat bij de kwaliteit van de databank. Een databank kan te specifiek of te generiek zijn. Vergelijk je DNA-sequenties van darmbacteriën met een databank van waterorganismen dan zal je weinig overeenkomsten (hits of matches) vinden. Vergelijk je het met een generieke genendatabank, dan zullen veel DNA-sequenties wel een match vinden, maar de gevonden moleculaire functie kan dan minder precies worden bepaald. Je kan dan bijvoorbeeld voorspellen dat het gen codeert voor een enzym dat suikermoleculen op een eiwit zet, maar je weet dan nog niet welke suikermoleculen of op welk eiwit.
Belangrijke databanken zijn de nt (non-redundant nucleotide) en de nr (non-redundant protein) databanken die worden bijgehouden door het Amerikaanse National Center for Biotechnology Information (NCBI). Daarnaast zijn er specifieke databanken van het humane microbioom van diverse plekken op het menselijk lichaam (het Amerikaanse HMP project) en het Europese MetaHit-project met darmmicrobiomen (Metagenomics of the Human Intestinal Tract). Bijvoorbeeld de MetaHit-databank is gebaseerd op microbiomen van honderden personen van voornamelijk Europese afkomst.
Leg je daar de sequenties van het darmmicrobioom van bijvoorbeeld een Afrikaan naast, die een heel ander dieet heeft, dan kan het tot heel weinig overeenkomsten leiden. De beste oplossing is de DNA-sequenties verkregen met shotgun metagenomics te vergelijken met meerdere databanken. Het aan elkaar knopen van die informatie is vervolgens wel weer een enorme klus, want hoe weeg je voor een DNA-sequentie de matches gevonden in verschillende databanken?
16S RNA-gensequencing is uitontwikkeld en binnen enkele weken te analyseren en te interpreteren met de beschikbare softwareprogramma’s. Veel werk wordt nu gedaan aan shotgun metagenomics, waarvan men hoopt dat het alle biologische vraagstukken gaat oplossen. Echter, voor uitgebreide analyse van een groot aantal mensen is het te duur en is de analyse van de gegevens nog geen haalbare kaart qua rekentijd en benodigde mankracht. Een groot struikelblok in de dataverwerking is het assembleren van alle DNA-sequenties en het precies bepalen van de moleculaire functie. Shotgun metagenomics wordt veel lucratiever wanneer de sequencingtechnieken langere en betrouwbare DNA-sequenties zouden opleveren. Maar dat is voorlopig een toekomstdroom van de bioinformaticus.