Sinds enkele jaren richt Google zich sterk op de ontwikkeling van spraakherkenning. Ze zien er veel mogelijke toepassingen voor. Zo hebben veel mobiele telefoons tegenwoordig toegang tot internet, maar typen blijft lastig op zo’n klein toetsenbordje. Met spraakherkenning kan je je zoekopdracht simpelweg inspreken. Filmpjes op YouTube, dat in handen is van Google, zijn wereldwijd makkelijker te bekijken met automatisch gegenereerde ondertiteling. En via een koppeling met de bestaande vertaaldienst van Google kun je je ook nog eens beter verstaanbaar maken in het buitenland.
Ontwikkeling
Tot nu toe werkte Google Search by Voice, de spraakherkenningssoftware van Google, alleen voor het Engels, Chinees en Japans. Deze week zijn daar ook Duits, Frans, Spaans en Italiaans aan toegevoegd. Waarschijnlijk is Google ook al druk bezig met een Nederlandse spraakherkenner, maar het is nog onbekend wanneer deze op de markt komt. Er komt namelijk nogal wat kijken bij de ontwikkeling van een spraakherkenner.
Ten eerste heeft elke taal zijn eigen spraakherkenner nodig. Het is niet mogelijk om een spraakherkenner te maken die voor alle talen tegelijk werkt. De uitspraak van letters varieert namelijk per taal: waar Nederlanders ‘bank’ uitspreken met een korte ‘a’, klinkt deze bij Amerikanen eerder als een korte ‘e’. Zelfs als je als Nederlander Engels tegen Google’s spraakherkenner zou spreken, is de kans groot dat hij je niet verstaat; het accent is waarschijnlijk niet Engels genoeg. Een spraakherkenner is dus taalafhankelijk, en weet precies welke klanken in ‘zijn’ taal voorkomen en welke woorden deze kunnen vormen.
De variatie in klanken vind je niet alleen terug tussen verschillende talen, maar ook tussen verschillende sprekers van dezelfde taal. Jongeren spreken vaak net iets anders dan ouderen en mensen uit het zuiden van het land spreken ook weer anders dan noorderlingen. Het is dus niet voldoende om een spraakherkenner te trainen met één spreker. Ontwikkelaars maken dan ook gebruik van een groot aantal sprekers met verschillende achtergronden. Met een degelijk akoestisch model is de spraakherkenner sprekeronafhankelijk.
Context
Naast een akoestisch model heeft de spraakherkenner ook enige taalkennis nodig. Welke woorden komen voor in een taal en in welke volgorde komen deze voor? Als de spraakherkenner weet wat hij ongeveer kan verwachten, kan hij ook beter spraak verstaan. Dit kan nog wel eens lastig worden voor Google. Ten eerste is de kans groot dat iemand zoekt met plaatsnamen of persoonsnamen — woorden die waarschijnlijk niet voorkomen in zijn woordenboek. Daarnaast bestaan zoektermen vaak maar uit enkele woorden, dus is het moeilijk om op basis van de context voorspellingen te doen. Heel begrijpelijk dus dat Google wat tijd nodig heeft de ontwikkeling van al die spraakherkenners.
Lees ook:
Oeps: Onbekende tag `feed’ met attributen {"url"=>"https://www.nemokennislink.nl/kernwoorden/spraakherkenning.atom", “max”=>"5", “detail”=>"normaal"}