Je leest:

De computer leert liplezen

De computer leert liplezen

Auteur: | 22 april 2009

Britse onderzoekers ontwikkelen een computer die aan de standen van de mond kan zien welke taal iemand spreekt. Voor de computer écht kan liplezen, moet er echter nog heel wat gebeuren. Zelfs mensen hebben daar vaak grote moeite mee. Toch kan visuele informatie zeker bijdragen aan het verstaan van spraak.

In het filmpje hierboven spreekt de vrouw Engels, Frans en Duits. Kan jij zien welke taal ze in welk beeld spreekt?1

Britse onderzoekers van de Universiteit van East Anglia ontwikkelen een computer die op basis van alleen visuele informatie kan zien welke taal iemand spreekt. Zulke computers kunnen in de toekomst erg handig zijn voor spraakherkenners die ook gebruik maken van beeld. Dan kunnen ze ook in een rumoerige omgeving nog verstaan wat er gezegd wordt. Voorlopig blijft het echter nog bij vaststellen in welke taal het gezegd wordt.

Zien helpt horen

Echt liplezen, zonder auditieve waarneming van de spraak, is heel moeilijk. De meeste mensen kunnen maar zo’n 25 procent correct aflezen aan de mond. Training hierin helpt wel een beetje, maar zelfs doven lezen slechts 33 procent goed af. Dit komt doordat verschillende klanken met hetzelfde lipbeeld worden uitgesproken. De woorden “kam” en “dam” bijvoorbeeld zijn hierdoor visueel niet van elkaar te onderscheiden.

Toch speelt het mondbeeld een niet te onderschatten rol bij het verstaan van spraak. Wat we iemand zien zeggen bepaalt mee wat we verstaan. Een bekend voorbeeld hiervan is het McGurk-effect: als je iemand “ba” hoort zeggen, maar “ga” ziet zeggen, dan passen je hersenen de waarneming aan tot een passend geheel. Je verstaat dan “da”. Je kunt dit zelf uitproberen met een paar vrienden of bekijken in dit filmpje:

Sprekersprofiel

Voor een computer is het nog veel moeilijker om te leren liplezen. Het is voor hem namelijk niet alleen lastig om verschillende klanken van elkaar te onderscheiden, ook zijn er grote verschillen tussen hoe twee mensen dezelfde taal spreken. De Britse wetenschappers hebben daarom een database gemaakt met filmpjes van meertalige sprekers die dezelfde tekst in verschillende talen voorlazen. Zo kan de computer steeds dezelfde persoon analyseren en blijven verschillen tussen mensen nog even buiten beschouwing.

In de trainingsfase berekent de computer van verschillende frames uit het filmpje de mondstanden. Zo maakt hij een profiel van elke spreker voor elke taal die hij spreekt. Op basis van dit profiel kan de computer daarna vrij nauwkeurig aangeven welke taal de spreker in het testfilmpje spreekt. Hoe goed de computer hierin is, hangt onder andere af van de spreker die aan het woord is. Bij sommige sprekers had de computer het in 80 procent van de gevallen goed, maar bij anderen in meer dan 95 procent.

Echt liplezen

Tijdens hun experiment kwamen de onderzoekers er achter dat de computer niet alleen hoog scoorde omdat hij zo goed de lipbeelden kon analyseren. De computer bleek ook niet-talige aspecten te gebruiken bij zijn berekening, zoals de spreeksnelheid. Die verschilt sowieso van taal tot taal, maar mensen spreken vreemde talen meestal ook net wat langzamer dan hun moedertaal.

De Britse onderzoekers zijn er zelf nog niet helemaal zeker van dat hun techniek geschikt is voor visuele taal-identificatie. Ze willen eerst verder onderzoek doen, zodat het systeem niet meer afhankelijk is van niet-talige variatie als spreeksnelheid en lichaamshouding. Ook zal er nog heel wat aan het systeem gesleuteld moeten worden om het sprekeronafhankelijk te maken. Of de computer ooit echt zal kunnen liplezen is zeer de vraag. Daar hebben wij mensen al moeite genoeg mee.

1 In het eerste filmpje spreekt de vrouw in het linker beeld Duits, in het middelste beeld Engels en in het rechter beeld Frans.

Zie ook:

Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/spraakherkenning.atom", “max”=>"5", “detail”=>"normaal"}

Dit artikel is een publicatie van NEMO Kennislink.
© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 22 april 2009
NEMO Kennislink nieuwsbrief
Ontvang elke week onze nieuwsbrief met het laatste nieuws uit de wetenschap.