Data-gedreven sturing blijft vragen om een verhaal bij de cijfers

Afbeelding van Mabel Amber via Pixabay 

De rijksoverheid, gemeenten, provincies, waterschappen en politie; allemaal zijn bezig met het verkennen en introduceren van nieuwe mogelijkheden rondom data-gedreven sturing. En daar valt veel voor te zeggen. Aannames en meningen kunnen worden onderbouwd, óf juist ontkracht op basis van concrete cijfers. Voor bestuurders en managers vormen cijfers een prettig houvast voor te maken keuzes en te voeren beleid. Je kunt het immers niet oneens zijn over concrete cijfers, toch?

Toch zijn er genoeg redenen om niet té comfortabel moeten worden bij het verantwoorden van de te maken keuzes op basis van cijfers die voortkomen uit data-analyses. Er komt namelijk aardig wat bij kijken om de kwaliteit van de informatie op orde te krijgen. En met steeds complexere analyses met behulp van bijvoorbeeld machine-learning algoritmen, is die kwaliteit essentieel.

Ten eerste geldt dat hoe geavanceerder de machine-learning algoritmen worden, des te minder makkelijk ze te doorgronden zijn. Dat geldt niet alleen voor de uitkomst van de analyse, maar ook de wijze waarop deze verkregen is. Dit fenomeen is ook wel bekend als black-box algoritmen. Hoe slimmer onze instrumenten worden, hoe minder goed we ze begrijpen, vooral wanneer het zelflerende systemen betreft.

Machine-learning algoritmen doen overigens feitelijk niets anders dan tellen en categoriseren. Dat is uiteraard wel erg kort door de bocht, maar hedendaagse computers zijn uiteindelijk nog steeds het beste in wat hun naam al aangeeft: tellen. En dat tellen doen ze in dit geval door in grote gegevensbestanden, gesorteerd of ongesorteerd, te zoeken naar mogelijke verbanden. Bijvoorbeeld tussen cijfers over vandalisme en armoede, tussen cijfers over gezondheid en werkeloosheid, enzovoorts.

Wat is de juiste data voor het vraagstuk

Maar voor veel maatschappelijke vraagstukken is het nog niet zo eenvoudig om een goede analyse te maken. Wat zijn bijvoorbeeld exact díe gegevens die je nodig hebt voor het doorgronden van een thema zoals ‘eenzaamheid onder ouderen’, mocht dat een politiek speerpunt zijn in uw gemeente?

Je komt gevoelsmatig al snel uit op een combinatie van indicatoren als ‘alleenstaand’, ‘vijfenzestig-plus’ en ‘minder-valide’. Maar zijn dat ze wel? En zijn dat ze allemaal? Wat is bijvoorbeeld het effect van het hebben van een hond op eenzaamheid? En met de verschuivingen in de AOW-leeftijd is zelfs ‘vijfenzestig-plus’, voorheen bij uitstek de indicator van ouderdom, al geen vast gegeven meer. We worden gemiddeld steeds ouder en nemen tot steeds hogere leeftijd deel aan het arbeidsproces.

Kwaliteit van gegevens is de basis

Afgezien van het vaststellen van de benodige indicatoren die je nodig heb voor het vatten van de kern van een vraagstuk, is er ook nog de uitdaging van de beschikbaarheid en kwaliteit van de gegevens. Beschik je überhaupt wel over deze gegevensbestanden, of zijn die binnen uw organisatie nooit vastgelegd? En zijn ze in een bruikbaar formaat opgeslagen, om geanalyseerd en vergeleken te worden?

Dan volgt te vraag of de beschikbare gegevensbestanden wel actueel, volledig en juist zijn? Het zal niet de eerste keer zijn dat door een foute koppeling, bepaalde gegevens uit de keten voor langere tijd niet goed gesynchroniseerd blijken te zijn geweest. Met alle problemen in de primaire processen tot gevolg. Het is geen hogere wiskunde om te snappen dat hoe beter de datasets zijn, hoe beter de kwaliteit van de uitkomst van een analyse is. En bovendien hoe complexer de keten, hoe belangrijker het is dat de gegeveninrichting en het gegevensbeheer op orde zijn.

”Cijfers zijn uiteindelijk cijfers. Net als verhalen uiteindelijk verhalen zijn.”

Maar dan zijn we er nog niet. Nog ongrijpbaarder is de mogelijke vertekening (ook wel ‘bias’) die in een dataset kan zijn geslopen bij het opbouwen van de informatie. Neem bijvoorbeeld vandalisme in een bepaalde wijk: bij tekenen van vandalisme wordt er meer gepatrouilleerd door handhavers, die meer uitingen van vandalisme zullen waarnemen (ze zijn immers meer aanwezig in een wijk) en registreren dat in de dataset. Die vertoont vervolgens toenemend vandalisme in de betreffende wijk, met nog meer aanwezigheid van handhaving als interventie. Je voelt al aan dat de wijk er al snel slecht van af komt in de cijfers, en vervolgens in het daarop gebaseerde beleid!

Zelfs met betrouwbare data ben je er nog niet

Maar zelfs als je gegevens actueel, compleet en juist zijn, zonder vertekening, kunnen er nog steeds ten onrechte verbanden gelegd worden, zogeheten correlaties. Als je geluk hebt, is de irrelevantie van het verband glashelder. Neem bijvoorbeeld de cijfermatig aantoonbare correlatie tussen de consumptie van kaas per hoofd van de bevolking en het aantal mensen dat in datzelfde jaar is overleden door verstikking in het beddengoed. Op basis van feitelijke open(bare) data uit de periode van 2000-2009 in de Verenigde Staten, is er met 94% zekerheid een correlatie in de data tussen beiden te constateren, zoals Tyler Vigen op zijn website met diverse hilarische voorbeelden illustreert.

Bron: Tyler Vigen, https://tylervigen.com/old-version.html

Wij kunnen in dit voorbeeld gelukkig snel inzien dat het klinkklare onzin is om deze gegevens qua betekenis met elkaar in verband te brengen. Maar wat als we datasets vergelijken waarbij dit niet zo makkelijk te identificeren is als een ‘false-positive’? Bijvoorbeeld door dat ze inhoudelijk wel degelijk iets met elkaar zouden kunnen hebben? Het is van belang om te realiseren dat een cijfermatige correlatie niet betekent dat er een causaal verband is.

Vuistregels als helpende hand

Kortom, in het verkennen en toepassen van data-gedreven sturing door de overheid, is het van essentieel om bewust te zijn van de valkuilen en te leren lessen. We staan echt nog maar aan het begin van deze ontwikkeling, er en valt nog ongelofelijk veel te ontdekken met elkaar. Een paar vuistregels kunnen hierbij helpen:

  • Wees open en transparant in wat je met je data doet en hoe deze tot stand is gekomen
  • Zoek andere vormen van bevestiging van het beeld dat voortkomt uit de data analyse, zeker naarmate deze complex van aard is
  • Ga het gesprek aan met inwoners, collega’s en experts om van elkaar te leren en elkaar te begrijpen; inclusief maatschappelijke context, persoonlijke verhalen en technische aspecten van de technologie
  • Krijg je buikpijn bij een te maken keuze die op basis van cijfers glashelder zou moeten zijn, of zegt je intuitie iets anders, geef je gevoel zeker een plaats in je afweging

Cijfers zijn uiteindelijk cijfers. Net als verhalen uiteindelijk verhalen zijn. Met alle technologische mogelijkheden is de verleiding groot om data-analyse te omarmen als de nieuwe basis voor beleid en besluitvorming, maar de vraag is of we de werkelijkheid daarmee volledig tot haar recht laten komen.

Door het verhaal bij de cijfers te blijven onderzoeken, delen en invoelen, kunnen beiden elkaar versterken in het komen tot data-gedreven sturing. Tegelijkertijd kunnen we door de juiste expertise op het gebied van data-science, data-analyse, machine-learning en andere technologie te ontwikkelen, werken aan een stevig fundament voor het vervullen van de rol en taken de overheid in de informatiesamenleving.


Wilt u meer weten over data-gedreven sturing in de praktijk? Vanaf 2020 biedt Futura Nova de opleiding “Nieuwe Dimensies in Data” aan. Aan de hand van casuïstiek gaan we in op de kansen en uitdagingen die vragen om strategische keuzes en een passend handelingsperspectief voor de rol, positionering en het functioneren van de overheid, zowel ambtelijk als bestuurlijk.

Ben u nieuwsgierig naar de mogelijkheden? Neem dan vrijblijvend contact op om informatie te ontvangen over deze opleiding.