Satellieten en zelflerende software kunnen armoede voorspellen op basis van nachtverlichting

In veel ontwikkelingslanden zijn nauwelijks betrouwbare data beschikbaar over welvaart of gezondheid van de bevolking. Toch baseert de VN imposante doelstellingen op die schaarse data, en meet er achteraf het succes aan af. Maar hoe zeker weten we of extreme armoede met de helft is afgenomen sinds 1990? Satellietfoto’s en zelflerende algoritmes kunnen nu vrij nauwkeurig armoede op wijk- en dorpsniveau meten.

19 augustus 2016

Beeld van de wereld bij nacht, samengesteld uit satellietfoto’s. Hoeveel licht er ‘s nachts brandt, is een redelijk betrouwbare graadmeter voor het algemene welvaartsniveau in een regio. Deze beelden vormen het startpunt voor de methode om extreme armoede te meten.
Arnout Jaspers, via CC 0

Officiële cijfers over welvaart, bevolkingsgroei of gezondheid worden nog op zeer traditionele wijze verzameld: enquêteurs reizen het land af, tot in de meest afgelegen dorpjes als het goed is, en laten inwoners vragenlijsten beantwoorden. Het proces is traag, duur en foutgevoelig. En het laat zich raden wat daarvan terechtkomt in gebieden waar oorlog, hongersnood of besmettelijke ziektes heersen. Zelfs in de ontwikkelingslanden waar met enige regelmaat zulke bevolkingsonderzoeken gehouden zijn, moet je maar afwachten of de resultaten eerlijk verwerkt worden, zonder dat de regering nadrukkelijk over de schouders van de rapporteurs meekijkt.

Geen bevolkingsonderzoek

Amerikaanse onderzoekers presenteren deze week in Science een nieuwe meetmethode, gebaseerd op satellietbeelden. Voor de periode 2000 tot 2010 vermelden zij dat van de 59 Afrikaanse landen, er 14 geen enkel bevolkingsonderzoek hebben laten doen, en 25 maar één. Toch rapporteerde de VN in 2015 dat over die periode in heel Afrika onder meer extreme armoede en kindersterfte sterk afnamen.

Van een groot deel van het aardoppervlak zijn overdag genomen hoge-resolutie satellietfoto’s beschikbaar. Als die foto’s op veel plaatsen in allerlei landen gekoppeld waren aan gedetailleerde gegevens over het inkomen van de bewoners aldaar, zou de software rechtstreeks kunnen leren van die foto’s. Maar zulke gekoppelde gegevens zijn te schaars. Daarom gebruikt de methode van Jean en zijn collega’s een extra tussenstap, via nachtelijke satellietbeelden.
Arnout Jaspers, via CC 0

De meetmethode van Neal Jean en zijn collega’s van Stanford University gebruikt zelflerende software om publiekelijk beschikbare satellietbeelden automatisch te analyseren. In dit geval is de methode specifiek gebruikt om te schatten hoeveel mensen in extreme armoede leven in vijf Afrikaanse landen, maar de methode zou ook breder toepasbaar kunnen zijn, bijvoorbeeld om de bevolkingsdichtheid of de beschikbaarheid van transport te meten.

Nachtverlichting

Satellietfoto’s worden al gebruikt om de welvaart van een regio te schatten. De hoeveelheid licht die ‘s nachts blijft branden, blijkt een redelijk goede graadmeter voor de welvaart in een regio. In arme buurten is niet of nauwelijks straatverlichting, er zijn geen helverlichte etalages, en in nog armere buurten is helemaal geen elektriciteit. Maar hoewel er meer dan genoeg satellietdata van nachtverlichting beschikbaar zijn, het is een minder goede indicatie voor hoeveel mensen in zo’n gebied in extreme armoede leven (een inkomen van minder dan 1,9 dollar per dag, volgens het VN-criterium).

Aan de onderkant van de maatschappij zit namelijk weinig variatie in de hoeveelheid nachtlicht; simpel gezegd zitten zowel een beetje arm als extreem arm ‘s nachts in het donker. Ook is het op deze manier niet goed mogelijk om een dichtbevolkte, arme wijk te onderscheiden van een dunbevolkte, rijke wijk.

Software trainen

In principe kan zelflerende software ‘getraind’ worden om uit overdag gemaakte hoge-resolutie satellietfoto’s af te leiden hoeveel bewoners daar rijk, arm of iets er tussenin zijn. Hoewel zulke software zelf, op grond van de trainingsdata, beslist welke criteria belangrijk zijn, kun je je voorstellen dat die kijkt naar makkelijk herkenbare aspecten als een zwembad in de achtertuin, meerdere auto’s voor één huis, of anderzijds roestig golfplaat als dak en een chaotisch patroon van smalle steegjes.

Dit zijn fictieve voorbeelden; in feite weet zelfs de maker van de software niet welke kenmerken het systeem gebruikt om armoede te schatten. De software begrijpt ook niet – in de menselijke zin van het woord – wat hij aan het doen is, hij doet gewoon wat het beste blijkt te werken na een check met de echte data.

Satellietbeelden worden eerst op vier manieren gefilterd om bepaalde landschapskenmerken eruit te halen. Dat zijn van links naar rechts: stedelijk gebied, niet-stedelijk gebied, water en wegen.
Boven: originele foto, midden: de ‘activatie-kaart’, met de kenmerken die het desbetreffende filter eruit haalt. Onder: de combinatie van die twee.
Jean et al. / Science

Maar dat leerproces lukt alleen als grote aantallen overdag genomen satellietfoto’s beschikbaar zijn van wijken en dorpen waarvoor op de grond gedetailleerde gegevens over de welvaart verzameld zijn, zoals door een enquête ter plekke. Het systeem moet immers zijn aannames over wat in de satellietfoto’s duidt op rijkdom of armoede kunnen checken aan echte data.

Tussenstap

Voor veel ontwikkelingslanden zijn zulke gegevens te schaars om er zelflerende software mee te trainen. Daarom besloot Jeans groep om het systeem via een tussenstap te trainen. Eerst leert het systeem om op grond van satellietfoto’s overdag te ‘voorspellen’ hoeveel licht er ‘s nachts zal branden in een wijk of dorp. Natuurlijk is dit geen echte voorspelling; door deze voorspelling te checken met echte data van de nachtverlichting, krijgt de software telkens feedback waarmee het zijn model kan verbeteren. Het voordeel is, dat ook voor nachtverlichting over de hele wereld hoge-resolutie data beschikbaar zijn. Tenslotte is de software verder getraind met satellietfoto’s overdag van een paar regio’s in vijf Afrikaanse landen waar betrouwbare data over welvaart per wijk wel beschikbaar zijn.

Dan blijkt dat dit model armoede beter voorspelt dan alleen naar de nachtverlichting kijken. Ook blijkt het model nog vrij goed te werken in andere delen van Afrika en zelfs daarbuiten, ondanks dat de cultuur en omstandigheden daar heel anders kunnen zijn.

Zoals de auteurs van het artikel in Science zelf ook opmerken, klinkt dit vreemd: je wilt je software trainen om uit overdag genomen satellietfoto’s de mate van armoede in een wijk af te leiden. Maar een belangrijk deel van die training bestaat uit ‘voorspellen’ hoeveel nachtverlichting er in die wijk zal zijn. Om de eerder genoemde redenen is nachtverlichting niet een heel goede indicator voor armoede. Hoe kan trainen via zo’n tussenstap dan toch een betere schatting van de armoede opleveren dan kijken hoeveel nachtverlichting er echt in die wijk brandt?

Verborgen wijsheid

Strikt genomen moeten de onderzoekers toegeven dat ze het niet weten. Immers, software gebaseerd op zelflerende netwerken beslist zelf welke criteria in de satellietfoto’s relevant zijn. Maar zo’n netwerk heeft niet de mogelijkheid om zijn maker te vertellen hoe het aan zijn wijsheid komt; die zit heel diffuus verweven in de zelflerende software.

Niettemin vermoeden de onderzoekers dat de software de nachtverlichting voorspelt met behulp van meerdere criteria die elk een indicator zijn voor welvaart. Om de hoeveelheid nachtverlichting te voorspellen, moet je die criteria op één hoop gooien, waardoor het goed voorstelbaar is dat nachtverlichting op zich een slechtere voorspeller is van armoede dan wanneer het systeem die criteria afzonderlijk gebruikt om armoede te voorspellen.

Voorbeeld van een hoge-resolutie armoedekaart, geproduceerd door het zelflerende computermodel van Jeans groep.
Neil Jean e.a., Science

Datarevolutie

In 2015 kon de VN zowaar eens goed nieuws melden: de millenniumdoelen waren grotendeels gerealiseerd. Extreme armoede en kindersterfte waren wereldwijd sterk afgenomen, veel meer meisjes gingen naar school en veel meer mensen hadden toegang tot gezondheidszorg.

Maar de kritiek op de betrouwbaarheid van de cijfers was niet mals. Mocht je daar wel zulke conclusies op baseren? De VN erkent dat het gebrek aan betrouwbare data een groot probleem is. Daarom is voor het volgende mondiale ontwikkelingsprogramma, de Sustainable Developtment Goals, een ‘datarevolutie’ nodig, zegt de VN.

Hordes enquêteurs daarvoor de wereld in sturen is onhaalbaar. De data zullen moeten komen van satellieten, maar ook van mobiele telefoonnetwerken, of zelfs Facebook en Twitter. Zelflerende netwerken die dit type massaal beschikbare data intelligent kunnen analyseren, zullen daar een grote rol in spelen. En misschien weten we dan in 2030 écht of de Sustainable Developtment Goals gerealiseerd zijn.

Bron

Neal Jean e.a., Combining satellite imagery and machine learning to predict poverty, Science, 19 augustus, DOI: 10.1126/science.aaf7894

Reageer