Je leest:

Biologische databanken

Biologische databanken

Auteurs: en | 20 mei 2005

Biologische databanken worden steeds groter en worden ook steeds belangrijker, getuige ook de opkomst van de bioinformatica, een nieuwe tak van wetenschap die bestaande biologische gegevens probeert te koppelen en te analyseren. In dit artikel worden de belangrijkste databanken beschreven; wat erin opgeslagen ligt en wat het nut daarvan is. Tevens wordt aandacht besteed aan hoe deze databases aan kunnen elkaar worden gekoppeld: door overkoepelende databanken maar ook door onderzoekers die met behulp van computerscripts gegevens uit meerdere databanken kunnen combineren, om zo wetenschappelijke problemen op te lossen.

Sequentie databanken

De meeste organismen hebben duizenden tot tienduizenden verschillende genen. Deze genen zijn allemaal opgebouwd uit een serie nucleotiden, gecodeerd als A, C, G of T. Sinds een aantal jaren is het mogelijk om nucleotidevolgorden op een snelle en vrij nauwkeurige manier te achterhalen. De opslag van deze gegevens vindt grotendeels plaats in grote databanken die, al dan niet publiekelijk, toegankelijk zijn via het internet. Er is onderscheid te maken tussen de soort-specifieke databases (die zich alleen richten op de informatie uit één organisme) en de overkoepelende databases, die gegevens over meerdere soorten combineren. Vaak is het zo dat het sequencen van een organisme aanleiding is tot het opzetten van zo’n soortspecifieke database, waarbij nieuwe gegevens tevens worden doorgeveven aan de overkoepelende database. Voorbeelden van dergelijke overkoepelende databases zijn GenBank (VS), EMBL (Europa) en DDBJ (Japan).

Eiwit databanken

Een tweede onderscheid is te maken in het type sequenties: nucleotide (DNA) of aminozuur (eiwit). De eerder genoemde databases zijn stuk voor stuk nucleotide databases; bekende aminozuur databases zijn SwissProt, PIR, TrEMBL en InterPro. Dit zijn allevier databanken die tot doel hebben al de tot nu toe bekende aminozuurvolgordes van eiwitten op te slaan.

Domein databanken

Een eiwit is natuurlijk niet zomaar een volgorde van een aantal aminozuren. De aminozuren zijn zodanig gerangschikt dat het eiwit een bepaalde functie kan vervullen, of in een aantal gevallen zelfs meerdere functies. Vaak is het zo dat een eiwit bestaat uit meerdere stukken van aminozuurgroepen, die elk hun eigen functie hebben. Zo’n stuk wordt ook wel een domein genoemd. Een databank die al deze domeinen tracht te classificeren is de ‘Pfam protein families database’. Andere veelgebruikte domein databanken zijn ProDom en ProSite.

Structuur databanken

Zelfs als je een eiwit opdeelt in verschillende domeinen, heb je nog niet zo gemakkelijk de precieze functie te pakken. Immers, ook domeinen zijn uiteindelijk maar aminozuurvolgordes. Wat we eigenlijk nodig hebben om iets te kunnen zeggen over de exacte functie van een eiwit, is zijn driedimensionale structuur. Tegenwoordig zijn er verschillende technieken om de 3D structuur van een eiwit te achterhalen, zoals NMR spectroscopie en kristallografie. De ‘RSCB Protein Data Bank’ probeert deze structuren allemaal op te slaan. Andere eiwitstructuur databanken zijn DSSP (‘Database of Secondary Structure of Proteins’) en HSSP (‘homology-derived secondary structure of proteins’).

Interactie databanken

Eiwitten kunnen interacties met elkaar aangaan: het ene eiwit kan het andere aansturen, ze kunnen elkaar tegenwerken, etcetera. Dit soort interacties worden ook opgeslagen in databanken zoals, de DIP (‘Database of Interacting Proteins’). Een andere eiwit interactie databank is BIND (‘Biomolecular Interaction Network Database’). Deze databanken zijn wel vrij nieuw, dus nog niet zo uitgebreid als de meeste andere databanken.

Pathway databanken

Een groep van interacterende eiwitten bij elkaar wordt ook wel een ‘pathway’ genoemd. Zo’n pathway is als het ware een reeks van eiwitten waarbij het ene eiwit telkens het volgende eiwit aan- of uitschakelt (stimuleert of inhibeert). De KEGG (‘Kyoto Encyclopedia of Genes and Genomes’) uit Japan probeert al die ingewikkelde routes in kaart te brengen. Je kunt daarin ook per pathway zien welke eiwitten daarin in een bepaald organisme voorkomen, dus je kunt ook de verschillen tussen bijvoorbeeld mens een muis eenvoudig zien. Ook het type interactie tussen eiwitten (activerend of juist afremmend) staat aangegeven.

De KEGG databank: een databank waarin pathways worden opgeslagen van alle eiwitten en hun interacties. Klik op de afbeelding voor een grotere versie.

Expressie databanken

Sommige genen worden vooral vertaald naar eiwitten in hersenweefsel, andere weer voornamelijk in spierweefsel. De mate waarin deze vertaling plaatsvindt, ofwel de mate van ‘expressie’, kan ook worden gemeten. Hierdoor kan worden achterhaald in welke weefsels bepaalde genen of eiwitten actief zijn, en dus ook wat hun globale functie is. Bekende expressie databanken zijn GEO en SAGE.

Sequentievergelijking databanken

Indien men wil weten hoeveel twee genen of twee eiwitten op elkaar lijken, probeert men meestal de sequenties te vergelijken. De mate van overeenkomst wordt dan gezien als mate van ‘homologie’, d.w.z. hoever liggen deze genen of eiwitten evolutionair gezien van elkaar vandaan? Protein World is een database waarin al deze berekeningen liggen opgeslagen, en waar je ook je eigen, nog onbekende, eiwit naast kunt leggen om zo de functie te achterhalen.

Orthologie databanken

Eén van de belangrijkste toepassingen van sequentievergelijking is het vinden van orthologen. Orthologen zijn eiwitten die zich door de evolutie over meerdere soorten hebben verspreid, maar die binnen die soorten nog wel dezelfde functie uitoefenen. Het interessante hieraan is dat het gebruikt kan worden voor functievoorspelling: je kunt informatie verkrijgen over een bepaald eiwit in de mens, door te kijken naar zijn ortholoog in bijvoorbeeld de muis of de rat – dieren die vaak als proefdier gebruikt worden. Er zijn verschillende methodes beschikbaar die proberen die orthologen te vinden, allen gebruikmakend van sequentievergelijking. Enkele veelgebruikte zijn: COG/KOG, InParanoid, HOPS en OrthoMCL.

Chromosomale positie databanken

Genen die vlak naast elkaar liggen op het chromosoom, zijn vaak in functie aan elkaar gerelateerd. Daarom is het belangrijk om de positie van een gen op het chromosoom te weten. Dit soort informatie ligt opgeslagen in de database achter Ensembl en de UCSC Genome Browser. Bovendien bevatten deze databases ook informatie over de stukjes DNA rondom de genen die reguleren waar en wanneer een gen moet worden vertaald (regulatoire sequenties).

De Ensembl databank: hierin worden genen opgeslagen met hun positie op het chromosoom, zodat je gemakkelijk kunt zien waar een bepaald gen ligt, welke genen daarnaast liggen, enzovoorts. Klik op de afbeelding voor een grotere versie.

Ontologie databanken

Alle verschillende genen en eiwitten kunnen worden gerangschikt op basis van hun functie. Als twee eiwitten heel dicht bij elkaar liggen in de evolutie, is hun functie ook vrijwel gelijk. Zoals je van genen een grote stamboom zou kunnen maken, met aan het begin het grote vooroudergen, dat zich daarna steeds verder vertakt naar steeds specifieke werkende genen, zo kun je dus ook van alle functies een stamboom maken. Dit is wat men heeft proberen te doen in de Gene Ontology (GO) databank. Elke biologische functie heeft men hier ingedeeld in een grote stamboom, waarbij elke functie een nummertje heeft dat dan weer wordt toegekend aan alle eiwitten die deze functie vervullen.

Literatuur databanken

De belangrijkste databanken zijn misschien nog wel de databanken van wetenschappelijke artikelen; hierin kun je immers alles vinden wat er de afgelopen periode is ontdekt, hoe dit is gedaan, enzovoorts. Twee bekende literatuur databases zijn PubMed en Medline. Beide databanken zijn handig te doorzoeken op bijvoorbeeld auteur, jaar van publicatie en tijdschrift. Omdat veel wetenschappelijke tijdschriften tegenwoordig hun artikelen ook op het internet zetten, kun je vaak niet alleen de gebruikelijke samenvatting van het artikel lezen, maar ook het complete artikel (al gaat dit laatste soms tegen betaling).

De PubMed databank: de bekendste literatuur database. Via een handige zoekfunctie kom je terecht op een pagina waar de gegevens van een artikel staan, met een samenvatting en soms zelfs een link naar het complete artikel. Klik op de afbeelding voor een grotere versie.

Overkoepelende databanken

Je zult wel begrijpen dat het af en toe lastig zoeken is in zo’n oerwoud van databanken. En er komen er elke week wel weer een paar nieuwe bij. Gelukkig zijn er ook zoeksystemen die alle belangrijke bestaande databanken aan elkaar koppelen, zodat je ze in één keer allemaal tegelijk kunt doorzoeken. De meest gebruikte overkoepelende databank is SRS (Sequence Retrieval System). Erg handig, zeker wanneer je informatie nodig hebt uit allerlei verschillende databases met elk hun eigen eigenaardigheden. Hoewel SRS, mede door deze complexiteit, niet zonder foutjes is, wordt het toch vaak gebruikt door onderzoekers.

Conclusie

Er is nogal wat biologische informatie te vinden op het internet. Alles wat bekend is over een bepaald gen of eiwit, of het nou gaat om zijn sequentie, zijn domeinstructuur, zijn positie op het chromosoom, of wat dan ook; het staat wel ergens in een databank. Geen wonder dus dat er uit het doorzoeken van al deze biologische informatie een nieuwe discipline is gerezen: de bioinformatica. Deze tak van wetenschap probeert door middel van computerscripts maar ook door handmatige bewerkingen allerlei biologische data aan elkaar te koppelen om daaruit nieuwe dingen te ontdekken. De verwachting is dat de bioinformatica steeds belangrijker gaat worden, ook omdat de hoeveelheid biologische gegevens steeds sneller groeit. Bovendien wordt het internet, waarop al deze gegevens beschikbaar zijn, steeds toegankelijker. En de koppeling tussen biologie en computers is natuurlijk hartstikke interessant!

Bronnen

· Schaefer 2004, Ann N Y Acad Sci 1020, 77-91: Pathway databases · Baxevanis 2003, Molecular Medicine 9, 185-192: Using genomic databases for sequence-based biological discovery · Higgins & Taylor 2000, Oxford University Press: Bioinformatics – Sequence, structure and databanks · Peters & Sikorski 1997, Nature Biotechnology 15, 90: Protein databases on the WWW

Voor vragen of opmerkingen n.a.v. dit artikel kunt u mailen met:

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 20 mei 2005
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.