Je leest:

Hoe kan je spraakopnames doorzoeken?

Hoe kan je spraakopnames doorzoeken?

Auteurs: en | 9 mei 2008

Gesproken bronnen in archieven kunnen van grote waarde zijn voor wetenschappelijk onderzoek. Het nadeel van gesproken materiaal is dat je er meestal wel naar, maar niet in kunt zoeken. Met behulp van taal- en spraaktechnologie kan de spraak worden omgezet in een leesbare tekst waarin gezocht kan worden. Hoewel de techniek nog volop in ontwikkeling is, zijn de huidige resultaten al veelbelovend.

Over heel de wereld liggen in stoffige archieven honderdduizenden uren spraak opgeslagen. Op een tape staat bijvoorbeeld “polygoon journaal 19 februari 1958”, maar dan weet je nog niet waar dat journaal over gaat. Wil je dat weten, dan moet je of een documentalist de tape af laten luisteren en er een samenvatting van laten maken of je moet zelf de hele tape afluisteren. Dit kan en wordt ook wel gedaan, maar alleen voor heel bijzonder materiaal. Het uitschrijven van één uur geluid kost ongeveer 8 á 10 uur werk en is dus erg arbeidsintensief en dus erg duur.

Stel nu dat je de geluidsopname “gewoon” in de computer kunt stoppen en vervolgens de computer het geluid kunt laten omzetten in tekst zodat je daarna precies weet wat op welk moment gezegd werd: dat zou enorm helpen, zelfs als de computer af en toe een herkenningsfoutje zou maken waardoor je sommige fragmenten niet vindt en andere fragmenten toch over iets anders blijken te gaan.

Tot enkele jaren terug werden opnames nog analoog gemaakt. Om deze goed te kunnen bewaren en doorzoeken moeten ze gedigitaliseerd worden.

Digitaliseren

Hoewel tegenwoordig opnames bijna altijd digitaal zijn, is het grootste deel van de bestaande opnames nog analoog. Veel van deze tapes liggen ergens in een plaatselijk archief langzaam te vergaan, en elke luisterbeurt gaat ten koste van de kwaliteit van de opname. Om deze opnames in de toekomst nog te kunnen onderzoeken en vooral ook doorzoeken, is het dus van groot belang ze te digitaliseren.

Omzetten naar tekst

Van sommige opnames (bv toespraken van de Koningin) is de spraak in het verleden al handmatig uitgeschreven, waardoor het makkelijker wordt om de bestanden te doorzoeken. Deze uitgeschreven tekst wordt de orthografische transcriptie genoemd. Bij veel opnames is helaas geen orthografische transcriptie aanwezig en zal deze nog door mens of computer gemaakt moeten worden om het bestand doorzoekbaar te maken. De door mensen gemaakte transcripties zijn meestal (bijna) foutloos. Helaas duurt het erg lang om ze te maken en is het daarom erg duur. Automatische spraakherkenning (ASR = Automatic Speech Recognition) is snel en erg goedkoop, maar helaas maken de spraakherkenningsprogramma’s nog wel veel fouten. In de toekomst zal dit zeker beter gaan, maar op dit moment worden ongeveer 20% van de woorden nog niet goed herkend.

Spraakherkenning

Er komt flink wat kijken bij deze automatische spraakherkenning. Op geluidsopnames staat vaak niet alleen spraak, maar ook achtergrondgeluiden zoals muziek, ruis of een dichtslaande deur die het spraaksignaal verstoren. Voor ons mensen is dit meestal geen probleem: we negeren automatisch het geluid van een dichtvallende deur. Voor computers is dit anders, want die weet niet dat het om een dichtvallen deur gaat en hij zal dus proberen ook dat geluid als spraak te herkennen.

Een spraakherkenner moet daarom uit de gehele geluidsopname eerst de spraak kunnen scheiden van de niet-spraak, dan van de spraak bepalen om welke taal het gaat en tenslotte de spraak omzetten in geschreven tekst.

Bij dit interview met Monica Seles zal niet alleen haar spraak worden opgenomen. De geluiden uit het stadion zullen ook op de tape belanden. Deze achtergrondruis zal weggefilterd moeten worden voor de spraak door een spraakherkenner naar tekst kan worden omgezet. Bron: Flickr

De mate waarin spraak herkend kan worden, is sterk afhankelijk van verschillende factoren. Zo spreekt niet iedere spreker even rustig en duidelijk, spreekt niet iedereen netjes ABN (denk aan de vele dialecten die het Nederlands kent), wordt er soms heel specifiek vakjargon gebruikt en wordt spraak soms sterk beïnvloedt door emoties. Over het algemeen geldt dat hoe beter vooraf bekend is wie er waarover spreekt, hoe beter de spraakherkenningsresultaten kunnen zijn.

Akoestisch profiel en contextmodel

In het ideale geval is er van iedere spreker een akoestisch profiel gemaakt en voor het gehele bestand een contextmodel. In het akoestisch profiel ligt opgeslagen hoe de sprekers de verschillende klanken daadwerkelijk uitspreken. In het contextmodel ligt opgeslagen welke woorden waarschijnlijk zijn (grote kans dat ze worden uitgesproken) en welke woorden juist niet. Weten we dat een geluidsopname gaat over een voetbalwedstrijd Nederland-Duitsland, dan is het waarschijnlijk dat woorden als “strijd”, “overwinning” en “doelpunt” zullen voorkomen. Woorden als “kolibrie”, “Vesuvius” of “klimaatmodel” zijn juist niet waarschijnlijk. Hoe beter zo’n contextmodel, hoe beter de herkenning. Als we voor iedere spreker een akoestisch profiel aanmaken en ook een geschikt contextmodel maken, dan nog zal de spraakherkenner niet foutloos werken, maar ongeveer 90% van de woorden goed herkennen.

Oplijnen

Wanneer van een opname al een orthografische transcriptie bestaat, hoeft de spraak niet meer herkend te worden door een spraakherkenner. Wel moet nog aangegeven worden wanneer ieder woord precies werd uitgesproken. Dit proces heet oplijnen. Een mooi voorbeeld hiervan is te vinden op de website van het “Radio Oranje project” waarbij de toespraken van Koningin Wilhelmina voor Radio Oranje (Londen, 1940-1945) zijn opgelijnd.

Als de orthografische transcriptie is opgelijnd met de opname, kan je door simpel op het stukje tekst te klikken het bijbehorende stukje spraak terugluisteren. Als de transcriptie automatisch is gemaakt m.b.v. een spraakherkenner, zitten de tijdscoderingen er automatisch bij en is oplijnen niet meer nodig.

Zoeken in de herkenningsresultaten

Behalve wanneer de spraak helemaal door mensen is uitgeschreven, zal het resultaat dus altijd fouten bevatten. De grote vraag is: hoe erg is dat? Wanneer we een letterlijke weergave van de spraak willen hebben, dan moet het resultaat dus foutloos zijn, maar vaak is een foutloze weergave niet noodzakelijk. Zelfs bij een foutmarge tot 50% is een document al voldoende doorzoekbaar voor de meeste doeleinden.

Dit komt doordat je meestal met meerdere woorden zoekt. Als een woord niet goed herkend is, is er altijd nog de kans dat de andere woorden in die passage wel goed herkend zijn. Stel dat je zoekt in een gesproken verslag over een expeditie naar de Zuidpool, dan kun je bv “sneeuw”, “kou”, “honger”, “honden”, “bevroren” opgeven. Alle passages waar bv tenminste 3 van de 5 opgegeven woorden in voorkomen, worden dan als mogelijke kandidaat geselecteerd. De kans dat je dan helemaal niets nuttigs vindt, of dat de meeste gevonden passages heel ergens anders over gaan, is niet erg waarschijnlijk.

De ontwikkelde software is zó gemaakt, dat je alleen maar op de gevonden passage hoeft te klikken om te beluisteren of het om een juiste passage gaat: hierdoor kun je zeer snel zoeken in de geluidsbestanden. Een mooi voorbeeld hiervan is te vinden in de “journaal demo” (zie links). In het zoekvenster kun je een of meerdere woorden invullen en in de 8-uur journaals van de laatste twee weken zoeken naar de momenten waarop Sacha de Boer of Philip Freriks deze woorden daadwerkelijk hebben uitgesproken. Door te klikken op het plaatje van de gewenste uitzending, krijg je direct de gewenste passage te zien.

Metadata

De orthografische transcriptie kan nog verder verrijkt worden door meer informatie die voor gebruikers interessant kan zijn, toe te voegen aan een opname. Deze extra informatie over de inhoud van de opname wordt metadata genoemd. In de metadata kan bijvoorbeeld staan wanneer, hoe en in welke context de opname heeft plaatsgevonden, wie de sprekers zijn en of er een korte samenvatting van de inhoud van de opname bijgevoegd is. Het koppelen van deze metadata aan de tekst wordt annoteren genoemd.

Automatisch gegenereerde transcripties en annotaties zijn nooit helemaal foutloos. Het blijft voorlopig mensenwerk om de fouten te verbeteren en de technieken verder te ontwikkelen. Hier bij het Corpus Gesproken Nederlands controleren studenten de automatisch toegekende woordsoort-informatie.

Het juist en volledig annoteren van een geluidsbestand is belangrijk: informatie die niet wordt opgenomen in de metadata gaat verloren en is vanaf dat moment niet meer beschikbaar. Bij het opstellen van een archief moet dus vanaf het begin de vraag gesteld worden waar het archief allemaal voor gebruikt zou kunnen worden en daar moeten de annotaties vervolgens op afgesteld worden. Voor taalkundig onderzoek zijn bijvoorbeeld hele andere annotaties van belang dan voor cultureel-historisch onderzoek.

De annotaties kunnen worden toegevoegd met behulp van een zogenaamde markup-taal. Met een markup-taal kunnen op verschillende plaatsen in een tekst labels worden aangebracht, zodat extra informatie beschikbaar wordt. Een heel bekende markup-taal is HTML die de structuur en opmaak van een internetpagina aangeeft. Voor annotaties in een corpus, een verzameling teksten, wordt meestal XML gebruikt, waarbij de gebruiker zelf nieuwe labels kan ontwikkelen en daardoor zo uitgebreid als hij maar wil metadata toe kan voegen. Deze annotaties zijn zowel voor mensen als voor computers leesbaar en zijn daardoor bruikbaar voor analyses.

Een voorbeeld van een met XML-tags verrijkt audiobestand. Door de annotaties wordt de structuur van de inhoud duidelijk zichtbaar. (Klik op het plaatje voor een vergroting)

Indexering

Door de orthografische transcriptie en de metadata te indexeren worden ze doorzoekbaar voor een zoekmachine. Deze indexering, die automatisch kan plaatsvinden, registreert welke woorden waar in de tekst voorkomen. Uitgangspunt hierbij is dat woorden die vaker voorkomen in een bepaalde tekst waarschijnlijk belangrijke woorden zijn die het onderwerp van die tekst bepalen. Na de indexering kan bijvoorbeeld gezocht worden binnen interviews gegeven door Johan Cruijff tussen 1968 en 1975 waarin hij het heeft over de Europa Cup I-finale in 1969. Omdat bovendien van ieder woord bekend is wanneer het werd uitgesproken (waar in het geluidsbestand) kunnen de gezochte passages vervolgens meteen beluisterd worden via de koppeling aan de geluidsopname.

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 09 mei 2008

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.