
‘Ditto’ is een algoritme dat automatisch een verzameling van karakteristieke patronen vindt in een dataset en er op die manier een soort samenvatting van maakt. De samenvattingen van Ditto kunnen worden gebruikt om datasets te classificeren. “Ditto maakt samenvattingen van seismische datasets die horen bij bepaalde soorten trillingen als aardbevingen, popconcerten of voorbijrijdende treinen”, legt Bertens uit. “Wanneer er nieuwe data binnenkomen ziet het algoritme bij welke samenvatting de nieuwe data het beste past en deelt de data in bij die klasse. Zo weet de seismograaf snel waardoor een trilling kan worden veroorzaakt.”
Algoritmes als grammatica
Het maken van een goed algoritme is volgens Bertens te vergelijken met hoe taal werkt. “Je ontwikkelt een soort grammatica voor de data”, zegt hij. “Die grammatica bepaalt wat voor patronen je algoritme vindt, net zoals de grammatica van het Nederlands bepaalt wat voor woorden en zinnen wij kunnen maken. De keuzes die je maakt bij het ontwikkelen van die grammatica leiden tot andere soorten patronen. Niet beter of slechter, maar anders. En dat is gelijk het moeilijke eraan, dat er oneindig veel mogelijkheden zijn.”
Data zonder begin of eind
Voor Ditto leerde Bertens van technieken die worden toegepast bij verwerking van andere soorten data, bijvoorbeeld technieken voor het samenvatten van transactiedata. Bertens: “In een supermarkt bestaan transactiedata bijvoorbeeld uit de producten die klanten bij de kassa afrekenen.” De seismische data van het KNMI komen binnen in een continue stroom, zogenaamde sequentiële data. “De technieken die patronen herkennen in transactiedata heb ik proberen te vertalen naar sequentiële data”, zegt Bertens. “Dat is moeilijk omdat transactiedata een begin en einde hebben, maar sequentiële data niet.”


De hoeveelheid data die wereldwijd wordt verzameld en dus ook moet worden geanalyseerd blijft enorm groeien. Het algoritme van Bertens kan die analyse vergemakkelijken. Hij is dan ook blij met het resultaat. “Ik denk dat Ditto wel een stap zet in de richting van het beter aangaan van die grote hoeveelheden data in de wereld.”
Dit artikel werd eerder in een andere vorm gepubliceerd op de “website van Commit”:http://www.commit-nl.nl/news/kernproef-of-aardbeving-hoe-patronen-in-data-dat-onthullen.