Naar de content

Computer zet hersensignalen om in spraak

Pxhere via CC0

Iemand praat tegen je en een computer leidt op basis van je hersensignalen af wat er gezegd is. Amerikaanse onderzoekers hebben een algoritme ontwikkeld dat dit kan. Op termijn hopen ze de techniek in te zetten bij mensen die niet meer kunnen spreken.

Je moet er een beetje je best voor doen, maar dan hoor je de blikkerige computerstem toch echt in het Engels van nul tot negen tellen. De opname is geproduceerd door een computermodel dat Amerikaanse wetenschappers ontwikkelden om hersensignalen van de auditieve cortex om te zetten in spraak. Ze publiceerden hun onderzoek onlangs in Scientific Reports, een online, open-access tijdschrift van Nature.

Beluister zelf het resultaat van het model. De Amerikaanse onderzoekers testten vier verschillende modellen. Deze werd door proefpersonen het best verstaan.

Je oor zet de luchttrillingen die je waarneemt als geluid om in elektrische signalen die je hersenen vervolgens verwerken in de auditieve schors, vlak boven je oor. Deze hersenactiviteit is meetbaar, maar tot nu toe waren deze patronen niet te decoderen – niet terug te vertalen naar het waargenomen geluid. Hassan Akbari en Bahar Khalighinejad, die promotieonderzoek doen aan de Amerikaanse Columbia University, zijn daar nu met collega’s wel in geslaagd.

Modellen trainen

Ze riepen hiervoor de hulp in van neurochirurg Asesh Mehta, die regelmatig patiënten met epilepsie opereert. Hij plaatst elektroden direct op hun hersenschors om te kunnen volgen waar de epilepsie in hun brein ontstaat, zodat hij op een later moment wellicht dat stuk kan wegsnijden. Vijf van deze patiënten werkten mee aan dit onderzoek en luisterden na de operatie elk een half uur lang naar korte verhalen van vier verschillende sprekers, twee mannen en twee vrouwen. De hersensignalen die zo werden geregistreerd, dienden als trainingsmateriaal voor de computermodellen van de onderzoekers.

Om deze modellen te testen, luisterden de proefpersonen vervolgens naar vier nieuwe personen die elk zes keer van nul tot negen telden. Per spreker werden de gemeten hersensignalen gemiddeld, waarna deze werden gevoerd aan de getrainde modellen. Het model dat gebruikmaakt van neurale netwerken en deep learning, gecombineerd met een vocoder (een stemcomputer), kwam het best uit de test. De kunstmatige spraak uit dit model werd door elf andere proefpersonen in 75 procent van de gevallen verstaan.

Een neuraal netwerk simuleert de werking van echte hersenen. Kunstmatige neuronen communiceren in een kunstmatig netwerk via een gigantische hoeveelheid verbindingen met elkaar. Door ‘ervaringen’ (het trainingsmateriaal) worden deze onderlinge verbindingen verzwakt of versterkt: deep learning vindt plaats.
Vocoder is een samentrekking van ‘voice encoder’. Dit computeralgoritme kan kunstmatige spraak genereren op basis van een analyse van de belangrijke aspecten uit een spraaksignaal, zoals de grondtoon.

Heilige graal

Peter Desain, hoogleraar Kunstmatige intelligentie aan de Radboud Universiteit, is onder de indruk van het resultaat. “Dit is zeker een stevige stap in de ontwikkeling van de automatische interpretatie van hersensignalen die optreden bij het horen van spraak. Zozeer dat de beluisterde spraak met een redelijke herkenbaarheid gereconstrueerd kan worden.”

In hun publicatie speculeren de onderzoekers over het toepassen van deze methode bij mensen die niet meer kunnen spreken, bijvoorbeeld als gevolg van een beroerte of een spierziekte als ALS. Hun ingebeelde spraak zou dan kunnen worden uitgesproken door de stem van het model. Lopen ze daarmee niet heel ver op de zaken vooruit? Luisteren naar echte spraak is toch iets anders dan in je hoofd spraak formuleren? “De mogelijkheid om intern voorgestelde spraak hoorbaar te maken, gebruikt als ondersteunende technologie, is de heilige graal van Brain-Computer Interface”, vertelt Desain. In dat vakgebied werken onderzoekers aan computersystemen die direct met de hersenen kunnen communiceren. “Nu is reconstructie van waargenomen spraak natuurlijk heel wat anders dan de interpretatie van voorgestelde spraak. Maar die processen blijken dichter bij elkaar te liggen dan misschien wordt aangenomen.” Bij beide processen zijn grotendeels dezelfde hersengebieden betrokken.

Alleen vrijwillig ingebeelde spraak

En hoe zit het dan met privacy? Moet je straks oppassen wat je denkt? Desain: “Privacy is natuurlijk een issue, maar interne spraak is vrijwillig, het is niet gelijk aan je gedachten. Als het mogelijk blijkt om voorgestelde spraak te detecteren, is dat nog altijd geen gedachtelezen.” De ontwikkelde methode zou alleen gedachtes kunnen decoderen die je je bewust hebt ingebeeld als uit te spreken zinnen. Alleen dan is er in de auditieve cortex hersenactiviteit die gebruikt kan worden voor de reconstructie.

Maar zo ver is het dus nog lang niet. De onderzoekers hebben hun model nog niet eens getest met ingebeelde spraak. Dat zijn ze nog wel van plan, net als testen met complexere woorden en zinnen. Uiteindelijk hopen de onderzoekers dat het model kan worden verwerkt in een implantaat dat hersensignalen doorlopend om kan zetten in spraak.

Bron:

Akbari, H., Khalighinejad, B., Herrero, J., Mehta, A., Mesgarani, N., Towards reconstructing intelligible speech from the human auditory cortex, Scientific Reports, 9:874, 2019.

ReactiesReageer