Ooit zet Youtube zelf toepasselijke muziek onder je filmpjes

Cynthia Liem speelt op professioneel niveau klassiek piano, won tijdens haar studie informatica allerlei universitaire prijzen en werkte al in Silicon Valley voor Google. Maar toch koos ze voor de TU Delft, omdat ze daar haar passies voor muziek en informatica kan combineren. Daarover gaat ook haar proefschrift, Multifaceted Approaches to Music Information Retrieval.

27 januari 2016

Passende muziek kan de zeggingskracht van bewegend beeld enorm vergroten, dat weten regisseurs al sinds de stomme film. Maar voor iemand die een filmpje uploadt naar YouTube, is het maken van een eigen soundtrack meestal veel te bewerkelijk.

Misschien is dat over een paar jaar ook niet meer nodig, dankzij een door Cynthia Liem ontwikkeld systeem, MuseSync. Het idee is, dat je bij het filmpje een beschrijving in je eigen woorden voegt van wat er gebeurt, en een paar trefwoorden voor de sfeer. Beter nog: je kunt erbij vertellen wat je had willen filmen, maar wat niet zo best gelukt is. YouTube zoekt dan met MuseSync automatisch een soundtrack bij je filmpje die het beeld ondersteunt en zelf een deel van het verhaal vertelt.

Een voetnoot in Liems proefschrift: “Wat betreft de vele kattenfilmpjes: uit het oogpunt van visuele concept-detectie bestaat het hele genre uit bijna-duplicaten. Maar het verhaal achter het kattenfilmpje van de ene gebruiker is niet hetzelfde als dat achter iemand anders’ kattenfilmpje, en de gebruiker wil er misschien wat mee spelen, wat ons systeem toelaat.”

Op maat gemaakte soundtrack

De muziek kan bijvoorbeeld een dreigend crescendo laten horen naar het dramatische hoogtepunt toe (dat zelf vrijwel niet in beeld is omdat je in de stress je smartphone te snel beweegt). Of je kan de muziek duidelijk laten maken, dat een op het oog schokkende scène in feite een grap is.

Cynthia Liem beschrijft MuseSync en een aantal gerelateerde experimenten in haar proefschrift, waarop ze eind vorig jaar aan de TU Delft promoveerde. MuseSync is het voorlopige antwoord op een Grand Challenge van Google (zie kader). Het is geen toeval dat Liem die in haar onderzoek oppakte, want ze heeft al een tijdje gewerkt bij de internet-gigant in Silicon Valley. Google kan enorme bedragen in onderzoek steken, en staat ook niet te boek als gierig voor zijn werknemers. Cynthia Liem: “Die bedragen zijn astronomisch. Ik verdiende als stagiaire bij Google veel meer dan hier als universitair docent.”

Grand Challenge

Op de twintigste ACM Multimedia Conference, in 2012 in Japan, presenteerde Google voor de hele industrietak een Grand Challenge (grootse uitdaging):

“Je hebt een paar familiefilmpjes gemaakt met je smartphone, maar je wilt ze niet op YouTube zetten omdat ze er saai uitzien. Maar als je er nu eens een bijpassende soundtrack bij had? Zou dat een video niet leuker maken, zodat je hem wel wilt uploaden?
Doel: maak een video veel leuker om te delen door er een bijpassende soundtrack aan toe te voegen.”

De bedoeling van de Challenge is dus niet dat de gebruiker zelf met muziekfragmenten gaat knutselen, maar dat YouTube of een ander sociaal medium dat voor je doet, volautomatisch.

MuseSync zoekt in een – nu nog vrij kleine – database met copyrightvrije muziek naar een stuk muziek dat niet alleen qua karakter bij de inhoud past, maar die ook qua tempo, crescendo’s en dergelijke, zo goed mogelijk het ritme van het filmpje volgt. Het ranglijstje met suggesties zal zelden een perfecte match bevatten, maar volgens Liems proefschrift is dat bij dit genre filmpjes minder een bezwaar dan bij zorgvuldig geregisseerde filmopnames.

Liem deed ook een experiment met online gerecruteerde vrijwilligers. Die moesten bij een instrumentaal muziekfragment een filmscène bedenken en beschrijven in hun eigen woorden. Hun teksten werden automatisch geanalyseerd op veel voorkomende trefwoorden.
C.Liem

Dit experiment diende om te checken, of beschrijvingen bruikbare trefwoorden voor muziekselectie opleveren. Boven staat een ‘woordwolk’ met de meest voorkomende trefwoorden voor het fragment Exciting Trailer. Hiernaast de woordwolk voor het fragment Mer Bleue Boogie. — Dit experiment diende om te checken, of beschrijvingen bruikbare trefwoorden voor muziekselectie opleveren. Boven staat een ‘woordwolk’ met de meest voorkomende trefwoorden voor het fragment *Exciting Trailer*. Hiernaast de woordwolk voor het fragment *Mer Bleue Boogie*.
C.Liem

Internet Movie Database

Computers en software zijn nog lang niet zo ver dat ze een door een mens geschreven tekst echt begrijpen, dus hoe zoekt MuseSync naar muziek die bij de beschrijving van het filmpje past? Het systeem maakt slim gebruik van twee grote, gratis toegankelijke databases, de Internet Movie Database (IMDb) en een website waar muziekliefhebbers hun luisterervaringen delen en liedjes – en soundtracks van films – beschrijven, last.fm.

Eerst vergelijkt het systeem de beschrijvingen van filmplots in de IMDb met de beschrijving van de maker van het filmpje, op basis van overeenkomende trefwoorden, en selecteert zo een flinke lijst met kandidaat-soundtracks. Bijvoorbeeld: als de maker van het filmpje in zijn beschrijving het woord ‘gitaar’ gebruikt, zoekt het systeem naar filmplots die minstens één song hadden die ook op last.fm is besproken en van het trefwoord ‘gitaar’ is voorzien.

Een complicatie is echter, dat het niet toegestaan is om die songs of soundtracks zelf te gebruiken, vanwege het copyright. Daarom gebruikt MuseSync een verzameling van ruim duizend copyright-vrije muziekstukken, die, opnieuw op basis van trefwoorden, het beste overeen komen met deze selectie.

Vervolgens wordt uit deze brede selectie een top-3 gemaakt, door te berekenen in hoeverre het geluid en het beeld van het filmpje synchroon lopen. Ook dat gebeurt automatisch: zowel in de muziek als in het filmpje spoort het systeem de momenten op met de snelste veranderingen in respectievelijk geluid en beeld, en probeert die, simpelweg door schuiven met de begintijd, zo goed mogelijk te matchen. Hoe beter de matching, hoe hoger het muziekfragment in de top-3 komt.

Op deze website vind je meer details over MuseSync, en voorbeelden van hoe MuseSync, jawel, kattenfilmpjes matcht met muziek.

MuseSync zal zeker nog verder ontwikkeld moeten worden. Liem denkt zelf aan meer geavanceerde tekstanalyse van de beschrijving van het filmpje. Ook een voorraad van duizend copyright-vrije muziekfragmenten lijkt nogal mager. Met honderdduizend fragmenten vind je allicht betere matchings.

De vingerafdruk van een orkest

Liems proefschrift bestaat uit meerdere onderzoeken. Ze ontwikkelde ook een nieuwe methode om opnames van orkesten met elkaar te vergelijken en te analyseren. Daarvoor gebruikt ze een statistische techniek die vooral in de sociale wetenschappen veel wordt gebruikt, Principal Component Analysis (PCA).

Dirigent Grant Llewellyn heeft andere principal components dan zijn collega’s. — Dirigent Grant Llewellyn heeft andere *principal components* dan zijn collega’s.
wikipedia

Van een symfonie waarvan veel digitale opnames beschikbaar zijn, Beethovens Eroica, maakte ze spectrogrammen: van een en hetzelfde fragment in alle uitvoeringen, wordt op elk moment bepaald welke toonhoogtes geluid aanwezig zijn. Na een voorbewerking om de fragmenten gelijk te trekken (het tempo varieert immers per uitvoering), berekent PCA uit al deze spectrogrammen een serie principal components, een soort archetypen van het muziekfragment, waaruit je alle individuele fragmenten opgebouwd kunt denken.

PCA wordt bijvoorbeeld ook gebruikt in automatische gezichtsherkenning: van veraf, of op een wazige foto, lijken alle gezichten op elkaar (eerste component), als je wat beter kijkt zie je globale verschillen tussen gezichten (tweede component) en van heel dichtbij vallen ook de verschillen tussen diverse oorlelletjes en neusvleugels op (derde component). In de praktijk heeft het zelden zin om de vierde of hogere componenten te bekijken, omdat die vooral door irrelevante details bepaald worden.

Spectrogram van een uitvoering van Beethovens Eroica. Horizontaal loopt de tijd, verticaal staat de frequentie van het geluid uitgezet. De kleur geeft de geluidsintensiteit aan (rood = hoog, blauw = laag). Dit spectrogram beslaat maar een paar muziekmaten, dus minder dan een minuut van de symfonie.
C.Liem

Als je met PCA hetzelfde fragment van een muziekstuk vergelijkt, uitgevoerd door verschillende orkesten, of door hetzelfde orkest met verschillende dirigenten, zie je in de eerste component weinig verschil. Deze vertegenwoordigt een soort grootste gemene deler van alle uitvoeringen. Maar in de tweede en derde component geven verschillende uitvoeringen allemaal een verschillende ‘vingerafdruk’.

Informatica-walhalla

De scores op de tweede en derde component van elk spectrogram kun je horizontaal en verticaal in een grafiek zetten, en zo krijg je een landkaart van de uitvoeringen van de Eroica, waar sommige orkesten en sommige dirigenten duidelijk een eigen gebied bezetten. Zelfs twee uitvoeringen door hetzelfde orkest onder dezelfde dirigent vallen niet samen. Zo ontdekte Liem, dat twee opnames van uitvoeringen van de Eroica door het Chamber Orchestra of Europe onder leiding van Harnoncourt vrijwel zeker twee kopieën van dezelfde opname zijn.

Liem verwacht niet dat dirigenten nu spectrogrammen van hun eigen orkest gaan bestuderen om tot betere uitvoeringen te komen. De PCA-techniek zal vooral nuttig zijn voor automatisch zoeken en herkennen van muziek in grote databases en op internet.

Nu het promotieonderzoek in Delft is afgerond, lonkt misschien toch weer het informatica-walhalla aan de westkust van de Verenigde Staten? “Er werd door Google wel aan me getrokken,” zegt Liem, “maar het culturele leven in Silicon Valley is niet zodanig, dat ik daar dezelfde mogelijkheden zag als in Nederland om me ook als pianiste verder te ontwikkelen.”

Reageer