Je leest:

Identificatie van genen en eiwitten via sequentievergelijking

Identificatie van genen en eiwitten via sequentievergelijking

Auteur:

De vergelijking van DNA- en aminozuurvolgordes is een belangrijk gereedschap voor modern biologisch onderzoek. Onbekende sequenties kunnen door dergelijke vergelijkingen namelijk geïdentificeerd worden en daarmee ook de functie. Databanken op het internet fungeren als vergelijkingsmateriaal voor de onbekende volgorde van de bouwstenen van DNA (nucleotiden) of eiwitten (aminozuren).

De volgorde (sequentie) van het DNA of de aminozuren in een eiwit, zijn bepalend voor de functie die het gen of het eiwit heeft in het organisme. Het achterhalen van die volgorde is echter niet voldoende om te weten welke functie dat dan is. Net zo min als het ontdekken van de spelling van een buitenlands woord, je helpt om de betekenis ervan te vinden. Door de volgorde van de DNA-stenen (nucleotiden) of die van de aminozuren van een eiwit te vergelijken met die van bekende genen of eiwitten, proberen wetenschappers meer informatie te vinden over de functie van dat gen of eiwit. In dit artikel komen een aantal technieken aan bod, waarmee je de sequenties kunt vergelijken. Ook van de toepassing van dergelijk onderzoek, vind je hieronder een paar voorbeelden.

DNA en dan?

Alle erfelijke informatie van een organisme ligt opgeslagen in het DNA (DesoxyriboNucleïneZuur, Acid is Engels voor zuur). Deze stof zit in iedere cel van elk willlekeurig organisme en bestaat uit vier bouwstenen, de nucleotiden: adenine (A), cytosine ©, guanine (G) en thymine (T) (zie afbeelding 1). De volgorde van deze nucleotiden bepaalt welke eiwitten er in het lichaam worden aangemaakt. Daarmee bepaalt het DNA ook welke erfelijke eigenschappen het organisme heeft.

Afb. 1: Stukje van de dubbele DNA-helix, zo’n 10 nucleotiden lang. Adenine (A) is blauw gekleurd, cytosine © groen, guanine (G) rood en thymine (T) geel. In dit model is goed te zien dat A en T een basepaar vormen, evenals C en G.

Het deel van het DNA dat verantwoordelijk is voor de productie van één eiwit, heet een gen. De eerste stap in de vorming van een eiwit, is de aanmaak van een nieuw molecuul, mRNA (messenger RiboNucleïneZuur). Dit proces heet transcriptie van het DNA. Dit mRNA heeft vrijwel dezelfde sequentie als het DNA, alleen wordt de bouwsteen thymine (T) omgezet in uracil (U). Nog een verschil is dat mRNA bestaat uit één streng; DNA is dubbelstrengs.

Het mRNA gaat vervolgens naar de ribosomen, de eiwitfabriekjes van de cel. Daar wordt het vertaald naar een eiwit. Dit proces heet translatie. Deze omzetting is vrij ingewikkeld, omdat er wel 20 verschillende aminozuren zijn om een eiwit te bouwen in plaats van de 4 nucleotiden van het DNA (zie afbeelding 2). Bij de translatie worden blokjes van drie nucleotiden, codons genaamd, omgezet in één aminozuur. Er zijn ook codons die aangeven waar de start en het einde van het gen liggen. Uit de volgorde van de nucleotiden in een gen is dus in principe ook de volgorde van de aminozuren in het bijbehorende eiwit af te leiden.

Afb. 2: Driedimensionaal model van het eiwit crambine, met de eenlettercodes van de voorkomende aminozuren erin afgedrukt.

Databanken vol volgordes

In de loop der jaren heeft men geprobeerd de verschillende volgordes van zowel DNA als eiwitten op te slaan in databanken. Sinds de ontwikkeling van snelle computers en de opkomst van het internet is het aantal van dit soort databases erg sterk toegenomen. De meeste databases waren in het begin nog vrij klein, vanwege de lage snelheid en de hoge moeilijkheidsgraad van het bepalen van de sequentie van een stuk DNA of eiwit. Aan het eind van de vorige eeuw is er echter een belangrijke stap genomen op weg naar veel grotere databases, met complete genomen.

Een genoom is het hele pakket van genen uit één organisme bij elkaar. Rond die tijd namelijk bedacht men nieuwe technieken voor het op grote snelheid bepalen van DNA-volgordes, het zogenaamde sequencen. Op dit moment is al van meer dan honderd verschillende organismen het genoom bekend. Een overzicht van databases van al deze verschillende genomen is te vinden bij het National Center for Biotechnology Information (NCBI). Je vindt hier ook proteoom-databanken, een proteoom is alle verschillende eiwitten uit één organisme bij elkaar.

Gereedschappen voor sequentievergelijking: BLAST

Om meer informatie te verkrijgen over een bepaalde sequentie, kan deze volgorde tegen één van de bekende databases worden gelegd. Zo’n sequentievergelijking wordt ook wel een alignment genoemd. De meest wijdverbreide en meest gebruikte methode is waarschijnlijk de Basic Local Alignment Search Tool (BLAST). Dit algoritme is, zoals de naam al zegt, alleen geschikt voor local alignments. Bij een local alignment worden alleen die stukken tegen elkaar aan gelegd, die ook echt veel met elkaar overeenkomen. Zo ontstaan er verschillende ‘eilandjes’ met een grote gelijkenis in sequentie, met daartussenin gebieden die nauwelijks overeenkomen. Hiertegenover staat de global alignment, waarbij wordt getracht de complete sequenties, van begin tot eind, tegen elkaar aan te leggen. De global alignment is ontwikkeld door Needleman en Wunsch; omdat deze methode een stuk minder wordt gebruikt ga ik hier verder niet meer op in.

BLAST zoekt als het ware naar korte patronen in de sequenties, met een lengte van 3 aminozuren of 11-12 nucleotiden. Deze patronen worden dan tegen elkaar aan gelegd, wat sneller werkt dan elke nucleotide of elk aminozuur apart te bekijken. Afbeelding 3 toont de output voor één ‘hit’ van een BLAST query (zoekopdracht) via deze server. Hierop is onder meer te zien dat BLAST niet alleen rekening houdt met identiteit (twee aminozuren zijn exact gelijk), maar ook met similariteit (twee aminozuren lijken op elkaar). Er zijn verschillende typen BLAST mogelijk, zoals een DNA zoekopdracht in een DNA databank of een eiwit zoekopdracht in een eiwit databank, maar ook bijvoorbeeld een DNA zoekopdracht in een eiwit databank. In het laatste geval wordt de DNA sequentie eerst ‘omgerekend’ tot een eiwit sequentie.

Afb. 3: De output voor één ‘hit’ van een BLAST query via de NCBI server. De blauwe woorden vormen links naar het gevonden eiwit in verschillende databases. Length: de lengte in aminozuren van het gevonden eiwit. Score: De score van de alignment (hoe hoger, hoe beter). Expect: Het aantal hits dat je ‘per toeval’ kunt verwachten als je met deze query zoekt in deze databases (hoe lager, hoe beter). Identities: aantal exact identieke aminozuren. Positives: aantal op elkaar gelijkende aminozuren. De alignment is onderaan weergegeven met de query (bovenste reeks) en de match (onderste reeks). In de alignment staat tussen de twee sequenties de overeenkomst weergegeven: een letter betekent identiek, een + op elkaar gelijkend. klik op de afbeelding voor een grotere versie

Gereedschappen voor sequentievergelijking: FASTA

Een tweede methode is die van Pearson en Lipman uit 1988: FASTA (FAST Alignment). Deze methode komt in grote lijnen overeen met BLAST, maar is iets beter in het maken van alignments tussen sequenties die wat minder goed met elkaar overeenkomen en kan beter overweg met nucleotide sequenties. Daarentegen is FASTA iets langzamer dan BLAST. FASTA bestaat uit verschillende types.

Gereedschappen voor sequentievergelijking: Smith-Waterman

Een meer geavanceerd algoritme voor sequentievergelijking is dat van Smith en Waterman uit 1981. Dit zogenaamde dynamic programming algoritme staat ook gaten ( gaps in vakterminologie) in de alignment toe. Bij deze methode wordt eigenlijk per aminozuur (of nucleotide) bekeken wat de volgende stap is: een match met de andere sequentie of een gaatje laten vallen. Voor elke aminozuurcombinatie is er een aparte score, die in een ‘scoringsmatrix’ zijn opgenomen.

Enkele veelgebruikte scoringsmatrices zijn BLOSUM en PAM, de keuze welke scoringsmatrix te nemen is afhankelijk van welke typen sequenties je met elkaar vergelijkt. Een gap levert een negatieve score op. Die puntenaantallen worden in een matrix geplaatst, met de ene sequentie horizontaal en de andere verticaal. De weg die bij elkaar opgeteld de hoogste score oplevert, is dan de uiteindelijke Smith-Waterman alignment. Een Smith-Waterman vergelijking is vanwege deze meer geavanceerde werkwijze natuurlijk wel een stuk langzamer dan BLAST en FASTA. Deze methode biedt dezelfde mogelijkheden als BLAST of FASTA voor wat betreft type zoekopdracht en type databank.

Doeleinden van sequentievergelijking

Sequentievergelijking wordt niet alleen in de wetenschap gebruikt, maar ook in de farmaceutische industrie bij de ontwikkeling van medicijnen. Dankzij de genoemde methoden kan een bepaald eiwit tegen een serie eiwitten worden aangelegd, waarvan de medicinale werking al bekend is. Op deze manier is het vrij eenvoudig te zien of het dan toe onbekende eiwit misschien ook in een medicijn verwerkt kan worden. Ook kunnen met behulp van sequentievergelijking bepaalde stukjes, ‘motieven’ genaamd, worden herkend die altijd in een bepaalde familie voorkomen. Deze stukjes zijn vaak extra belangrijk in een eiwit; ze komen niet voor niets in elk eiwit van die familie voor. Dat stukje is dan vaak het onderdeel dat het eiwit zijn ‘genezende’ werking geeft.

Een andere toepassing is bijvoorbeeld bij politieonderzoek. Elk mens is vrijwel uniek voor wat betreft de genen, wat herkenning op grond van het DNA mogelijk maakt. Bij een ernstig misdrijf is een verdachte verplicht DNA te laten afnemen. Dit DNA kan dan worden vergeleken met DNA dat is gevonden op de plaats van misdrijf, uit bijvoorbeeld bloed of sperma. In de toekomst komen er misschien zelfs databanken waarin ieders DNA ligt opgeslagen, dan hoeft de politie alleen nog maar gevonden materiaal met de sequenties in deze databank te vergelijken om de dader te achterhalen. Vanwege privacy wetgeving zullen deze databanken echter nog wel een tijdje op zich laten wachten.

Conclusie

Er zijn nog veel meer alignment methoden dan hierboven beschreven zijn, maar het gaat te ver om deze hier allemaal te beschrijven. Tevens zijn er allerlei manieren om de significantie van de gemeten scores te meten. Dit valt echter meer in het vakgebied van de statisticus. Dit artikel geeft slechts in het kort weer wat biologische sequenties zijn, wat het nut ervan is om deze tegen allerlei sequentie databases aan te leggen, en wat voor methodes hier voornamelijk voor gebruikt worden.

Bronnen:

Altschul et al. 1990, Journal of Molecular Biology 215, 403-410: Basic local alignment search tool

Pearson & Lipman 1988, Proc. Natl. Acad. Sci. USA 85, 2444-2448: Improved tools for biological sequence comparison

Smith & Waterman 1981, Journal of Molecular Biology 147, 195-197: Identification of Common Molecular Subsequences

Meer weten over biotechnologie?

Voor vragen of opmerkingen n.a.v. dit artikel kunt u mailen met:

Dit artikel is een publicatie van Nederlands Instituut voor Biologie (NIBI).
© Nederlands Instituut voor Biologie (NIBI), sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 28 augustus 2003

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

LEES EN DRAAG BIJ AAN DE DISCUSSIE