BLOG: dr. Raymond Sluiter over datakwaliteit

Het streven is om in elke nieuwsbrief van het Alterra expertisecentrum Kwaliteit van Ruimtelijke Data een opinie over het belang van datakwaliteit te publiceren. Deze keer stelden we onze drie standaardvragen aan dr. Raymond Sluiter, onderzoeker GEO-ICT bij de vakgroep R&D Waarnemingen en Datatechnologie, KNMI.

  1. Weet u van een geval (een dataset? Een organisatie?) waarbij (het gebrek aan) datakwaliteit heeft geleid tot problemen?
  2. Ziet u trends op het gebied van datakwaliteit?
  3. Als u €1.000.000 aan datakwaliteit mocht besteden, wat zou u dan als eerste doen?

Weet u van een geval (een dataset? Een organisatie?) waarbij (het gebrek aan) datakwaliteit heeft geleid tot problemen? 

De meteorologie en klimatologie heeft een lange traditie van kwaliteitsbewaking van metingen. Van alle instrumenten zijn de fouten bekend en sensoren worden regelmatig gekalibreerd en als er dan toch iets fout gaat: een vastgeijzelde windmeter of insecten die voor een zichtmeter vliegen, dan zijn we er snel bij om maatregelen te treffen. Van afgeleide producten zoals neerslagkaarten die we interpoleren op basis van waarnemingen documenteren we de methodiek, foutmarges en beperkingen in de metadata. Ook van een belangrijke databron als de neerslagradar weten we goed wat de foutmarges zijn onder verschillende omstandigheden: de huidige radar is bijvoorbeeld niet goed in het detecteren van motregen en sneeuw kan nog een aardig eind verwaaien voor het aan de grond is. Datakwaliteit op orde maar toch kunnen er problemen ontstaan: geïnterpoleerde neerslagkaarten missen wel eens een lokaal heftig buitje, de 300 regenmeters liggen nl. op een gemiddelde afstand van 12 km. Deze kaarten worden dan ook vnl. gebruikt voor lange-termijn hydrologische toepassingen (tot wel 100 jaar!). Als zo’n lokale bui ervoor zorgt dat een dorp overstroomt en er vervolgens een discussie ontstaat over de exacte hoeveelheid neerslag waarbij twee “open data” bronnen met goede datakwaliteit elkaar tegenspreken dan levert dat problemen op. Het wordt dus steeds belangrijker om “fitness for use” goed te beschrijven en te communiceren maar aangezien “use” zeer breed kan zijn en niet geheel te voorzien, is er nog genoeg werk voor data-experts.

Naast de conventionele bronnen van waarnemingen (weerstations, radar, satellieten) zijn er nieuwe databronnen in opkomst: het Internet of Things, sensoren in smartphones en auto’s, amateurs die weermetingen doen, crowdsourcing-initiatieven etc. Combinaties van conventionele en nieuwe databronnen kunnen leiden tot interessante hogere-resolutie producten. Indien het gaat om het combineren van verschillende bronnen (Variety), met hoge updatesnelheid (Velocity) en een grote omvang (Volume) kan je spreken van “Big Data”. Juist deze “Big Data” biedt nog meer uitdagingen voor het duiden van de datakwaliteit, vaak zijn de nieuwe bronnen van lagere kwaliteit maar de hoeveelheid data kan het gebrek aan individuele kwaliteit compenseren. Een populaire manier om Big Data te duiden is het gebruik van V’s, naast de al genoemde V’s is er ook een V voor kwaliteitsgerelateerde zaken, de V van Veracity. Aangezien er veel Big Data toepassingen in het geodomein zijn is er dus ook nog veel werk te doen door geodata- experts...

Als u €1.000.000 aan datakwaliteit mocht besteden, wat zou u dan als eerste doen?

KNMI is dit jaar net gestart met een datalab waarin we (big)data-gedreven innovaties gaan onderzoeken met veel aandacht voor “veracity”. Het is dus verleidelijk om met het geld meer data-scientists aan te stellen. Een andere wens die we al een tijd hebben is de aanschaf van een aantal mobiele weerstations met hoogwaardige meetapparatuur die we kunnen inzetten in de stad of in gebieden met grote gradiënten zoals aan de kust. Met een miljoen kunnen we echter ook 1000 low-cost weerstations uitdelen aan weeramateurs om een nog betere dekking van ons crowdsourceplatform wow.knmi.nl te bereiken. Ik denk dat ik kies voor de hoge-kwaliteit mobiele weerstations maar dan wel meteen met een goede onderzoeker erbij…