Je leest:

De stemmenfabriek

De stemmenfabriek

Laat de computer spreken met je eigen stem

Auteur: | 9 april 2009

Bij spraaksynthesesoftware voor je computer krijg je vaak maar één of twee stemmen. Die moet je maar net prettig vinden om naar te luisteren. Het Nederlandse bedrijf Fluency maakt het mogelijk om zelf een stem op te nemen. Het enige dat je hiervoor hoeft te doen, is een flink aantal woorden en zinnen voorlezen.

Nog niet zo lang geleden was het al heel mooi als je een sprekende computer kon verstaan. Het geluid was erg blikkerig en klonk verre van natuurlijk. Niet bepaald een genot om lang naar te luisteren. Tegenwoordig is de techniek zo ver ontwikkeld dat je mensen er soms mee voor de gek kunt houden: het lijkt net echt. De keuze aan stemmen is echter nogal beperkt. Bij sommige spraaksynthesesoftware krijg je zelfs alleen een vrouwenstem. Daar komt nu verandering in. Je kunt sinds kort zelf een stem opnemen, en de opnamen vervolgens laten omzetten in een computerstem.

Mixen als een dj

Een sprekende computer maakt gebruik van een zogenaamde spraaksynthesizer. Deze zet een geschreven tekst om in spraak. Hiervoor maakt hij eerst een fonetische transcriptie van de tekst. Dit is een nauwkeurige weergave van hoe de tekst moet worden uitgesproken. Hoe een bepaalde letter klinkt hangt namelijk ook af van zijn plaats in een woord en in een zin. De ‘d’ in ‘bad’ klinkt bijvoorbeeld heel anders dan de ‘d’ in ‘droog’. In de fonetische transcriptie staat onder andere welke spraakklanken nodig zijn om de zinnen uit te spreken. Ook staat er precies waar in elk woord de klemtoon valt.

Stel, de computer moet zeggen: “Ik hou van chocola, maar ik heb nu geen trek”. Om het woord ‘chocola’ goed uit te kunnen spreken, moet de software bijvoorbeeld weten dat je de ‘ch’ in dit woord uitspreekt als ‘sj’, en niet als ‘g’. En het is ook belangrijk dat de klemtoon valt op de laatste lettergreep. Dus dat het woord wordt uitgesproken als ‘sjo-ko-lá’, en niet als bijvoorbeeld ‘sjo-kó-la’. Al deze informatie zet de software in de fonetische transcriptie.

Taalkundigen hebben een speciaal alfabet ontwikkeld voor fonetische transcripties. Met dit International Phonetic Alphabet (IPA) kun je alle klanken van alle talen opschrijven. Je komt het ook vaak tegen in woordenboeken. Zo weet je precies hoe je een woord moet uitspreken.

Deze fonetische transcriptie zet de spraaksynthesizer vervolgens om in spraakgeluid. Hiervoor beschikt hij over een grote database vol met spraakfragmenten. In deze database zoekt de software stukjes spraak bij elkaar die samen de juiste zin vormen. Die stukjes spraak mixt hij aan elkaar, ongeveer zoals een dj dat doet als hij een vloeiende overgang maakt tussen tracks.

De software zoekt in zijn fragmentendatabase niet naar woorden of zinnen, maar naar klankovergangen. Dat kan ook niet anders, want de kans dat precies jouw zin in de database staat is erg klein. Ook het aantal woorden dat je kant en klaar kunt overnemen is beperkt.

De computer moet dus zeggen: “Ik hou van chocola, maar ik heb nu geen trek”. Het woord ‘chocola’ uit deze zin komt alleen niet voor in de database. Toch kan de computer het woord uitspreken. De spraaksynthesizer maakt namelijk het woord door bijvoorbeeld delen van de woorden ‘showbizz’, ‘krokodil’, ‘beaujolais’ en ‘gorgonzola’ aan elkaar te mixen.

Een nieuwe stem opnemen

De nieuwe spraaksynthese van Fluency, een bedrijf uit Amsterdam, heeft al zeven Nederlandse stemmen, waaronder ook de stemmen van twee tieners. Je kunt kiezen voor de stem van een jongen van veertien of van een meisje van zestien. Maar als je er toch geen fijne stem bij vindt zitten, kun je ook zelf je stem opnemen, en die geschikt laten maken voor de spraaksynthesizer. Je moet dan een flink aantal woorden en zinnen (in totaal 774 items) heel precies nazeggen. Het materiaal is vrij pittig, dus je moet wel goed en foutloos kunnen voorlezen!

Je hebt niet zoveel nodig om dit te doen. Het opnameprogramma kun je gratis downloaden van de website van Fluency. Verder heb je een goede microfoon nodig, en natuurlijk een pc of notebook. De opnamen maak je in een rustig kamertje. Zo komt alleen je stem op de opname en geen omgevingsgeluiden. De spraaksynthesizer zegt eerst elk woord en elke zin voor, zodat je hoort hoe het ongeveer moet klinken. Om alles op te nemen heb je ongeveer vier sessies nodig van één à twee uur. Het resultaat is een berg audiobestanden, die je stuurt naar de stemmenfabriek van Fluency.

Screenshot van het programma waarmee je je stem kunt opnemen.

De stemmenfabriek

Die stemmenfabriek bestaat uit een reeks computerprogramma’s die de opnamen analyseren die je hebt gemaakt. De software zet deze opnamen om in een spraakdatabase voor de synthesizer. Het belangrijkste hierbij is de segmentatie. In het geluidsignaal geeft het programma heel precies aan waar de verschillende spraakklanken beginnen en eindigen. Zo weet de synthesizer later exact waar in de opname hij elke spraakklank kan terugvinden om zijn spraak mee samen te stellen.

De segmentatie van de zin “Een achtjarig meisje uit Australië is opgegeten door een krokodil”. Bovenin zie je het spraaksignaal. In het midden zie je een zogenaamd spectrogram, waarin per geluidsfrequentie de intensiteit te zien is. Onderin zie je de segmentatie van de uiting.

Als je de segmentatie met de hand zou moeten maken, dan is dat vreselijk veel werk. Je moet dan elk stukje spraak een paar keer luisteren, zodat je precies het begin en einde van een klank aan kan geven. Gelukkig kan de computer dit automatisch, met vrij goede resultaten. Het is dan nog wel nodig hier en daar de automatische segmentatie met de hand te corrigeren. Vooral als de spreker de zin niet helemaal precies heeft nagezegd, of een extra pauze heeft ingelast, gaat de segmentatie nog vaak fout.

Naast de segmentatie meet de software uit de stemmenfabriek ook automatisch de zinsmelodie van elke opname. Met deze gegevens kan de synthesizer nieuwe zinnen een passende melodie geven. Een volledige spraakdatabase voor de synthesizer bestaat uit ruim 27.000 klankovergangen, waaruit de computer kan kiezen om nieuwe woorden en zinnen te maken. Als de nieuwe stem goed genoeg is, komt hij ook beschikbaar voor andere gebruikers van de spraaksynthesizer. Zo zal de keuze aan stemmen steeds groter worden.

David (14) gebruikt de spraaksynthesesoftware van Fluency.

Een stem die bij je past

Jonge spraakgehandicapten hebben zich lange tijd moeten behelpen met een computerstem die helemaal niet bij ze past. Je kunt je misschien voorstellen dat een jongen van tien jaar liever niet met de zware stem van een volwassen man spreekt. Als er veel verschillende stemmen beschikbaar zijn, dan is er altijd wel een te vinden die beter past bij de spreker. Je kunt dan rekening houden met de leeftijd, het geslacht en met andere kenmerken van degene die de stem moet gaan gebruiken.

De stem van Jeroen

Jeroen, een man van 38 jaar oud, heeft ALS. Dit is een spierziekte die vaak ook de spraakorganen treft, waardoor spreken steeds moeilijker wordt, en uiteindelijk onmogelijk. Kort geleden heeft Jeroen zijn stem opgenomen, en laten omzetten in een spraakdatabase. Door de ziekte is zijn articulatie al vrij slecht, en het kostte hem dan ook veel moeite om al het materiaal in te spreken. Maar het is hem wel gelukt. Zelf schreef hij hierover: “Aan het begin had ik er een zwaar hoofd in, maar na 774 woorden en zinnen is het zware hoofd verdwenen”. Het resultaat is geen topkwaliteit, maar het is wel heel herkenbaar zijn stem. En het betekent dat als hij later niet meer zelf kan spreken, hij zijn computerstem daarvoor kan gebruiken. Zo blijft hij toch nog een beetje de oude Jeroen.

Niet alleen spraakgehandicapten maken gebruik van spraaksynthese in hun dagelijks leven. Ook dyslectici gebruiken de software vaak, bijvoorbeeld om teksten van websites te laten voorlezen. Iedereen heeft zo zijn persoonlijke voorkeur voor bepaalde stemmen, dus dan is het fijn als je kunt kiezen uit veel verschillende stemmen. Zo kun je ook nog eens wisselen als je op een van de stemmen bent uitgekeken en heb je altijd een stem die op dat moment bij je past.

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 09 april 2009

Discussieer mee

0

Vragen, opmerkingen of bijdragen over dit artikel of het onderwerp? Neem deel aan de discussie.

NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.