Alle thema's

Google zegt het, dus is het niet per se waar

‘Aan neutrale algoritmes heb je niets’

Deze publicatie is onderdeel van het thema: Big Data

Elke seconde voeren we wereldwijd 40.000 zoekopdrachten uit op Google. Maar de resultaten die we teruggekoppeld krijgen, zijn niet neutraal. Gelukkig maar, want aan een neutrale zoekmachine heeft niemand iets.

door

20151013 4612

“Aan een neutraal algoritme heb je niets”, aldus Maarten de Rijke. Hij is hoogleraar Informatieverwerking en Internet aan het Instituut voor Informatica van de Universiteit van Amsterdam: Commit, Peter Apers, CC BY 2,.0

Laten we even een lezersexperiment doen. Voer in Google Afbeeldingen de term three black teenagers in. Grote kans dat je bij de eerste zoekresultaten met name politiefoto’s voorgeschoteld krijgt. Doe nu hetzelfde met de term three white teenagers. Nu zie je onder meer drie vrolijk lachende sportende jongeren. Zijn alle donker gekleurde jongeren dan crimineel en alle blanke tieners sportieve schatjes? Zeker niet, noch ben jij als lezer racistisch. Het ligt aan het algoritme dat Google gebruikt om te zoeken.

“Aan een neutraal algoritme heb je niets. Google ordent voor ons wat belangrijk is en wat niet en probeert uit duizenden hits nuttige informatie boven water te halen. Stel je zoekt op Trump. Je hebt er dan niets aan als je allerlei onbelangrijke blogs krijgt. Je hebt meer aan dagbladartikelen of encyclopedische feitelijke informatie”, zo legt Maarten de Rijke, hoogleraar Informatieverwerking en Internet aan het Instituut voor Informatica van de Universiteit van Amsterdam uit.

Met objectieve, neutrale algoritmen zouden we niets meer kunnen vinden. Zoek bijvoorbeeld in Google eens op de term ‘Nemo’. Je krijgt maar liefst 107 miljoen resultaten, variërend van verwijzingen naar het Amsterdamse Science Museum en deze website van Kennislink tot de leverancier van wapensystemen en kinderen die hun goudvis zo genoemd hebben. Handig is het als Google ongeveer begrijpt wat je zoekt.

Images

Een zoekmachine als Google, geeft heel andere resultaten dan een zoekmachine als Yahoo. Google, logo, CC BY 1.0

Pizza uit New York

Algoritmes worden getraind op data. In die data zitten vaak allerlei voorkeuren. De Rijke: “Als we niet de voorkeuren van gebruikers in bijvoorbeeld Amerika gebruiken, maar de data en voorkeuren van gebruikers in, zeg, Afrika of China, dan zouden we misschien wel heel andere zoekresultaten krijgen. Bijvoorbeeld vrolijk lachende zwarte jongeren.” En probeer eens een andere zoekmachine dan Google, bijvoorbeeld Ask.com, Bing of Yahoo. Je zult dan weer hele andere zoekresultaten krijgen.

De Rijke: “De data waarop algoritmes getraind worden, zijn de eerste barrière tussen ons en een overdaad aan hits. Maar zoekmachines kijken ook naar ons eigen gedrag. Ze gebruiken daarbij onder meer het IP-adres en de cookies. Als je steeds Telegraafartikelen leest, zouden die wat hoger in de ranking van de nieuwszoekmachine kunnen komen. En als je in Amsterdam woont, heb je niets aan een overzicht van pizzeria’s in New York.”

Computers tellen bijna alles wat we online doen. Honderden kenmerken worden meegenomen. Welke sites bezoekt de gebruiker, hoe lang blijft hij daar, welke berichten ontvangen likes, hoeveel tijd besteedt men aan het lezen. Mede op basis daarvan wordt informatie gefilterd en gerangschikt.

Obama terrorist

Dit najaar waren er twee Amerikaanse presidentskandidaten in de race om het Witte Huis. Over en weer gooiden de partijen met modder. Trump beschuldigde de huidige Democratische president Obama er bijvoorbeeld van dat hij de stichter was van de terroristische Islamitische Staat. Een beschuldiging die veel Trump-stemmers geloofden.

De Rijke: “Als je kijkt naar de werking van een zoekmachine is dit niet vreemd. De meeste mensen kijken alleen naar de eerste tien hits, slechts vijftien procent van de mensen zoekt verder. En op basis van eerder zoekgedrag zullen artikelen waarin Obama hiervan beschuldigd wordt, hoog in de ranking staan. Google toont resultaten, dus die resultaten zullen wel waar zijn. Maar zo werkt het niet. Als gebruiker van een zoekmachine zul je je steeds moeten afvragen: klopt het wat hier staat, zijn er andere bronnen? Overigens is het ook lastig vast te stellen wat een neutrale ordening is. Zoekmachines willen geloofwaardig zijn, maar enige kleuring is niet te voorkomen.”

Er zijn experimenten gedaan waarbij mensen meer neutrale of zelfs zoekresultaten voorgeschoteld kregen die tegen hun overtuiging in gingen, maar dat bleek niet te werken. “Het ging toen om politieke en medische onderwerpen, maar je zag dat mensen niet op een zoekresultaat klikten als dat niet bij hun eigen overtuiging paste.”

Naamloos

Als je via Google op zoek gaat naar Nemo, krijg je allerlei hits. Natuurlijk het Science Museum, maar ook de Pixar-vis, een wandelvereniging en een branchevereniging voor mortelleveranciers. Google, Printscreen, CC BY 1.0

Een gekleurd zoekresultaat is nuttiger

Goed, laten we er eens vanuit gaan dat zoekmachines niet alvast wat denkwerk van onze voorkeuren of bedoeling zouden uitvoeren, maar een volkomen willekeurige of neutrale ordening zouden maken. Misschien moet je dan, op zoek naar Nemo, wel duizenden blogs en sites over goudvissen doorploeteren. Zonder contextuele informatie, zoals de locatie van de gebruiker, het tijdstip, of de taak die de gebruiker uitvoert, lukt het zelfs experts niet om het eens te worden over het nut van een zoekresultaat.

Preview

Als je in Google op zwarte tieners zoekt, krijg je eerder politiefoto’s, dan bij een zoektocht naar blanke tieners. Dan komt doordat algoritmes niet neutraal zijn. FBI, CC, BY 2.0

“Wat is nu het beste? Neutraal of subjectief? Het is een spagaat waar we als maatschappij nog niet uit zijn. Subjectief en geordend heeft ook voordelen. Een gekleurd zoekresultaat is nuttiger, het stelt ons in staat om sneller de juiste informatie te zoeken. Een maatschappij is nu eenmaal op een bepaalde manier ingericht, dat zie je terug in de data. Zoekmachines gebruiken ook een natuurlijke ordening. Als je op hypotheken zoekt, is het vaak logisch dat je ook iets over tuinaanleg wilt lezen of over de verkoop van een woning als je verder scrolt.”

Kortom: zoeksystemen moeten subjectief, contextafhankelijk, en aangepast aan onszelf zijn anders hebben we er niets aan. Dat we dan bij het zoeken op drie zwarte tieners politiefoto’s krijgen en bij drie blanke tieners drie sporters, is een weerspiegeling van onze maatschappij. We kunnen daar technologische oplossingen voor bedenken.

Maar belangrijker is het om de onderliggende problemen aan te pakken: “Die subjectiviteit en dat gebrek aan neutraliteit leren ze van ons, hun gebruikers. De uitkomsten van deze systemen zijn een reflectie van onszelf, onze voorkeuren, opvattingen, meningen, en gedrag. Nooit een absolute waarheid. Belangrijk is dat we ons dat beseffen en eventueel een second opinion vragen als het om belangrijke zaken gaat,” aldus De Rijke.