Medewerkers van het Spaanse bedrijf Hit Song Science beweren dat zij een computer-programma hebben dat kan voorspellen of een nummer een hit zal worden. Hun programma zoekt naar wiskundige structuren in zo’n nummer en vergelijkt die met de structuren van oude hits. Hit Song Science heeft daarvoor maar liefst 3,5 miljoen hits in haar programma staan. Als een nummer ongeveer dezelfde structuur heeft als oude hits, dan is de kans groot dat dit nieuwe nummer ook een hit zal worden. Het programma voorspelde onder andere hits voor Norah Jones en Maroon 5. Is dat knap?
Hit Song Science’s software onderscheid verschillende types hits; hier zijn die geclusterd weergegeven. Valt een hit – zeer zeldzaam volgens de makers – buiten de bestaande clusters, dan komt dat meestal door de tekstinhoud; Hit Song Science kijkt alleen naar de wiskundige patronen in een song, niet naar de betekenis van de tekst. bron: Hit Song Science
Onbevangen op zoek naar structuur
Rudi Cilibrasi werkt bij het Amsterdamse Centrum voor Wiskunde en Informatica aan zijn promotie-onderzoek. Hij schreef al verschillende artikelen over computerprogramma’s die de structuur van dingen met elkaar vergelijken. Dingen kunnen in dit geval niet alleen liedjes zijn, maar bijvoorbeeld ook talen of dna-structuren. Cilibrasi: “Wat wij doen, is eigenlijk het tegenovergestelde van wat Hit Song Science doet. Zij hebben in hun programma een heleboel informatie gestopt. Wij proberen juist om ons programma zonder enige toegevoegde informatie te laten werken. We vertellen de computer niet eens dat hij muziek-files bekijkt. Dan krijg je een heel ander soort programma.”
Cilibrasi’s techniek, losgelaten op talen. Zonder ingeprogrammeerde voorkennis van linguistiek onderscheidt het programma allerlei verschillende talen. bron: Rudi Cilibrasi, CWI
Cilibrasi en onder anderen zijn collega Paul Vitanyi gebruiken een slimme truc om structuren te zoeken. Ze werken met bekende zip-programma’s. Een zip-programma, zoals bijvoorbeeld Winzip, zoekt naar structuur binnen een file en slaat ze dan kleiner op als een zip-file. Hoe meer structuur er in een file zit, hoe kleiner deze file uiteindelijk zal worden na het gebruiken van een zip-programma. Cilibrasi laat een zip-programma eerst losse files kleiner maken. Die files kunnen mp3-bestanden van liedjes zijn, stukken tekst en alles wat je verder op je computer als een file op kan slaan. Daarna gebruikt hij hetzelfde zip-programma om combinaties van die files tegelijk te zippen. Als twee files nu veel op elkaar lijken, dan zal het zip-programma de combinatie van die twee erg klein op kunnen slaan. Dus aan de grootte van de zip-files kan je zien hoeveel de files op elkaar lijken. Cilibrasi tekende vervolgens een boom, waarin dingen die veel op elkaar lijken vlak bij elkaar in de boom zitten.
Cilibrasi gebruikte zijn comprimeringstechniek ook om de relatie tussen verschillende diersoorten aan te geven. bron: Rudi Cilibrasi, CWI
Deze techniek zou ook gebruikt kunnen worden om nieuwe nummers met bestaande hits te vergelijken. Maar volgens Cilibrasi is dat waarschijnlijk niet wat Hit Song Science doet: “Als je je beperkt tot een specifiek gebied, is het wiskundig veel makkelijker om overeenkomsten te vinden. Je kan als mens van te voren al keuzes maken, welke informatie belangrijk is en welke niet. Dan kun je een veel eenvoudiger programma maken om te zoeken naar overeenkomsten op precies die punten.”
Zelfs zaken die totaal niet op elkaar lijken, zoals bestanden met programmeercode en met muziekinhoud, kun je via Cilibrasi’s methode met elkaar vergelijken. bron: Rudi Cilibrasi, CWI