Data op DNA

Amerikaanse onderzoekers hebben een nieuw algoritme geschreven waarmee ze grote pakketten data op DNA opslaan. DNA werkt dan als een soort super computergeheugen. Het nieuwe systeem doet het beter dan eerdere pogingen om informatie op DNA op te slaan en blijkt ook nog eens foutloos.

3 maart 2017

Onze computers houden de enorme groei van data niet lang meer bij. Elke dag creëren wij zo’n 2,5 exabyte of 2.500.000.000 gigabyte aan nieuwe data en dat moeten we ergens opslaan. DNA wordt al jaren gezien als de nieuwe generatie harde schrijven. Een DNA-database neemt veel minder ruimte in beslag, blijft honderden jaren goed en de techniek zal niet snel verouderen.

Niet efficiënt

Helaas is data opslaan op DNA niet zo makkelijk. Onderzoekers schrijven de informatie nog niet efficiënt genoeg op de nucleotiden (de bouwstenen van het DNA) waardoor veel potentiële ruimte verloren gaat. Ook ontstaan er vaak fouten als ze de data weer van het DNA willen halen. Onderzoekers van Columbia University en het New York Genome Center (NYGC) hebben deze problemen nu op een slimme manier opgelost. “Elk mediabestand bestaat uit binaire code, een reeks van enen en nullen. Wij kunnen deze lange reeksen nu zo knippen dat we ze uiteindelijk zonder fouten weer aflezen”, vertelt co-auteur en hoogleraar computerwetenschappen Yaniv Erlich.

Binaire code op een computerscherm. — Alle digitale berekeningen gaan met enen en nullen.
Christiaan Colen via CC BY-SA 2.0

Erlich gebruikt hiervoor een zogenaamd fontein-algoritme. Dit algoritme zorgt er ook voor dat je video’s kunt streamen op je telefoon. Met deze techniek knipt de computer grote bestanden in korte strengen binaire code en verdeelt deze korte strengen willekeurig over zogenoemde ‘druppels’. Vervolgens bindt de computer de code aan de vier nucleotiden waar DNA uit opgebouwd is: de A werd 00, C is 01, G is 10 en T is 1.

Sudoku

Vervolgens verwijdert de computer de lettercombinaties die vaak problemen opleveren bij het kopiëren van het DNA en krijgen alle druppels een streepjescode zodat ze weer in de goede volgorde in elkaar worden gezet. “Omdat het algoritme bepaalde regels gebruikt tijdens het knippen van de code, kunnen we de code ook opbouwen als enkele druppels missen”, legt Erlich uit. Hij vergelijkt het met het maken van een sudoku: “Ook bij sudokus zijn sommige vakken leeg, maar je kunt ze wel weer invullen omdat je de regels kent.”

De onderzoekers maakten een groot bestand met daarin een besturingssysteem van een computer, een Franse film, een Amazon-cadeaukaart, een computervirus, een gouden plaat die ooit meeging in de Pioneer-ruimtesonde en een wetenschappelijk artikel om hun systeem te testen. De 72.000 stukken DNA die de computer uiteindelijk van dit bestand maakte, lieten ze door een bedrijf synthetiseren. En met succes: “Toen we het buisje met DNA met een speciale software weer omzetten naar binaire code konden we alle bestanden weer lezen en gebruiken,” zegt Erlich trots. “We hebben zelfs nog een paar keer kopieën gemaakt, die we elke keer zonder fouten konden gebruiken.”

Misschien slaan we onze data over enkele jaren wel op op DNA.
Karl-Ludwig Poggemann/Flickr.com via CC BY 2.0

Een record

De techniek is niet alleen foutloos, maar Erlich en zijn collega’s hebben er ook nog eens een record mee gevestigd: “Met onze techniek zetten we honderd keer meer data op een gram DNA dan voorheen mogelijk was.” Toch denkt Erlich niet dat we binnenkort allemaal een DNA als harde schrijf in onze computer hebben: “Het systeem kost veel geld; we waren 9000 dollar kwijt om het bestand te synthetiseren en af te lezen.” Bovendien zijn er nog wel tekortkomingen: “Je kunt niet makkelijk even een klein dingetje in het bestand aanpassen, dan moet je meteen een hele nieuwe streng DNA maken.”

Bron:

Yaniv Erlich, et al., DNA Fountain enables a robust and efficient storage architecture, Science (2017), DOI: http://dx.doi.org/10.1126/science.aaj2038

Reageer