BLOG: dr. Gerard Heuvelink over datakwaliteit

BLOG: dr. Gerard Heuvelink over datakwaliteit

Het streven is om in elke nieuwsbrief van het Alterra expertisecentrum Kwaliteit van Ruimtelijke Data een opinie over het belang van datakwaliteit te publiceren. Deze keer stelden we onze drie standaardvragen aan dr. Gerard Heuvelink van Wageningen University, Laboratorium voor Geo-informatiekunde en Remote Sensing.

  1. Weet u van een geval (een dataset? Een organisatie?) waarbij (het gebrek aan) datakwaliteit heeft geleid tot problemen?
  2. Ziet u trends op het gebied van datakwaliteit?
  3. Als u €1.000.000 aan datakwaliteit mocht besteden, wat zou u dan als eerste doen?

Weet u van een geval (een dataset? Een organisatie?) waarbij (het gebrek aan) datakwaliteit heeft geleid tot problemen?

Goede voorbeelden liggen niet voor het oprapen: men loopt nu eenmaal niet te koop met zaken die fout gaan. Welke organisatie zou vrijwillig de vuile was buiten hangen? Men stopt het liever in de doofpot, met als mogelijk gevolg dat er niet van fouten geleerd wordt. Een voorbeeld waarbij problemen met datakwaliteit wel naar buiten kwamen is de kwestie De Kwaadsteniet, die rond de eeuwwisseling speelde bij het RIVM. Hans de Kwaadsteniet vroeg aandacht voor kwantificering van de (forse) onzekerheden in modeluitkomsten zoals gepresenteerd in de Milieubalans, maar vond geen gehoor bij de directie. Hierop stapte hij naar de landelijke media, met als uiteindelijk gevolg dat het huidige Planbureau voor de Leefomgeving (PBL) standaard een Leidraad voor Omgaan met Onzekerheden hanteert. Een mooi voorbeeld van hoe aandacht voor fouten en onzekerheden de kwaliteit van onderzoek kan verbeteren.

Ziet u trends op het gebied van datakwaliteit?

Ik zal me beperken tot trends in datakwaliteit in de bodemkartering omdat ik daar het beste in thuis ben. In het verleden maakte men zich niet erg druk om de kwaliteit van bodemkaarten en was er weinig aandacht voor kwantificering van de kaartnauwkeurigheid. Soms werden er wel validatiestudies gedaan die lieten zien dat de kaartzuiverheid (de kans dat de kaart op een willekeurige plek het juiste bodemtype voorspelt) vaak klein is en zelden de beoogde 70% haalt. Tegenwoordig is er veel meer aandacht voor kwantificering van onzekerheden in bodemkaarten. Niet zozeer achteraf via validatiestudies maar vaak als integraal onderdeel van het karteerproces, waarbij elke geproduceerde kaart vergezeld gaat van een onzekerheidskaart. Om deze reden wordt veel gebruik gemaakt van (geo)statistische karteertechnieken. Een belangrijke stimulans voor deze ontwikkeling is het GlobalSoilMap project, dat kwantificering van onzekerheden als harde eis opneemt in de productspecificaties. Als trend (of wens) voor de toekomst zie ik dat die gekwantificeerde onzekerheden meer nog dan tot nu toe worden meegenomen in vervolganalyses: je wilt immers niet alleen de kwaliteit van ruimtelijke data weten maar ook welke weerslag dit heeft op vervolganalyses.

Als u €1.000.000 aan datakwaliteit mocht besteden, wat zou u dan als eerste doen?

Ook al ben ik zelf een onderzoeker in hart en nieren, toch zou ik dit geld niet inzetten voor wetenschappelijk onderzoek. Ik zou het gebruiken om datakwaliteit beter voor het voetlicht te brengen bij beleidsmakers, politici en het grote publiek. Ik zou bijvoorbeeld aansprekende voorbeelden zoeken die op overtuigende wijze laten zien hoe belangrijk datakwaliteit is. Deze voorbeelden moeten dan op mediagenieke wijze gepresenteerd, inclusief een agenda voor hoe we beter om kunnen gaan met onzekerheden. Ik zou dit alles trouwens niet zelf doen omdat ik daar niet de juiste persoon voor ben. Ik zou op zoek gaan naar een charismatisch persoon die de doelgroep kan enthousiasmeren en overtuigen, type Wubbo Ockels. Met een dergelijk groot bedrag moet het ook mogelijk zijn dit initiatief niet tot Nederland te beperken. Zoals Nederland wereldwijd bekend staat om zijn waterbeleid en –beheer, zo zou Nederland ook een voorbeeldfunctie kunnen hebben in het omgaan met (ruimtelijke) onzekerheden.