BLOG: Kwaliteit van Ruimtelijke Data, Peter van Oosterom, TU Delft

Het streven is om in elke nieuwsbrief van het Wageningen Environmental Research expertisecentrum Kwaliteit van Ruimtelijke Data een opinie over het belang van datakwaliteit te publiceren. Deze keer stelden we onze drie standaardvragen aan dr. Peter van Oosterom, hoogleraar GIS technologie, TU Delft.

  1. Weet u van een geval (een dataset? Een organisatie?) waarbij (het gebrek aan) datakwaliteit heeft geleid tot problemen?
  2. Ziet u trends op het gebied van datakwaliteit?
  3. Als u €1.000.000 aan datakwaliteit mocht besteden, wat zou u dan als eerste doen?

Weet u van een geval (een dataset? Een organisatie?) waarbij (het gebrek aan) datakwaliteit heeft geleid tot problemen? 

In mijn vorige baan bij het Kadaster ben ik vooral bezig geweest met de interne data kwaliteitsaspecten als topologische structuur (percelen mogen niet overlappen, grenzen moeten gesloten zijn) of consistentie tussen de kaart en de juridische gegevens (perceel moet zowel in LKI en AKR bekend zijn, oppervlakte perceel op kaart zou niet veel anders moeten zijn dan die in de akte, etc.).

Wat ook 'naar' is, en al vele decennia bekend (en niet alleen in Nederland), is dat de nieuwe kadastrale metingen beter zijn dan de huidige kadastrale kaart (gebaseerd soms op zeer oude metingen). Elke keer weer jammer als zo'n meting wordt ingepast in de kaart, en hierdoor in kwaliteit achteruit gaat. Dit moet in de toekomst anders. De ISO 19152 standaard Land Administration Domain Model (LADM), geeft deel van de oplossing: relateer expliciet in hetzelfde informatiemodel (en systeem) zowel de metingen als de kaart aan elkaar. Voorwaarde is wel dat de metingen dan ook digitaal beschikbaar zijn, en dat we wellicht de inpassingen in het verleden opnieuw gaan doen ('terug rollen' in de tijd), maar dan nu door de kaart rondom zo'n nieuwe meting lokaal te verbeteren i.p.v. omgekeerd.

Bij de TU Delft ben ik nu minder direct betrokken bij productie van geodata, hoewel er nu net op het onderwerp 'meeting-kaart' een afstudeerder bij het Kadaster actief is (Pieter Soffers). Natuurlijk leren we ook onze MSc Geomatics studenten de basisprincipes van data inwinnen, de mogelijkheden en de beperkingen hierbij, en de implicaties voor de datakwaliteit in vakken als GEO1001 (Sensing Technologies for the Built Environment) en GEO1008 (Geo Datasets and Quality), beide verzorgd door mijn collega Tjeu Lemmens.

Ook in andere afstudeeronderzoeken of projecten lopen we geregeld tegen datakwaliteitsaspecten aan. Zo bleek in het NWO/SURF NLeSc project Management of Massive Point Clouds, dat in de AHN2 puntenwolk er ook onwaarschijnlijke punten zitten op enkele honderden meters boven Ameland (http://ahn2.pointclouds.nl/). Dit ondanks de toch vrij goed doordachte kwaliteitsspecificaties van dit product en de acceptatie testen namens opdrachtgever. Niemand had dit ooit eerder gemerkt, totdat wij in het project een 3D web-viewer hadden gemaakt, waarmee het bekijken van deze AHN2 data eenvoudig en efficiënt mogelijk werd ('kwaliteit=gebruik').

Een ander interessant aspect is de relatie tussen kaartschalen (‘levels of detail’) en kwaliteit. Een voorbeeld: Google Maps is geweldig goed, heeft mooie data inhoud, is ook gebruikersvriendelijk, maar is gebaseerd op redundante representaties voor de verschillende kaartschalen. Hoewel over het algemeen deze kaartlagen zorgvuldig zijn voorbereid, gaat het toch soms mis. Dit levert dan een situaties op waarbij je op een kleinere of middelschaal iets ziet, maar dat dit dan bij verder inzoomen weer verdwijnt. Met alle verwarring van dien aan de kant van de gebruiker. Met ons vario-schaal onderzoek (http://varioscale.bk.tudelft.nl/) werken we aan een oplossing hiervoor.

Meer en meer worden data gecombineerd via internet, en zullen eventuele fouten eerder worden ontdekt (zowel geometrisch, temporeel, als semantische kwaliteit). Dit wordt verder versterkt doordat er vanuit de overheid steeds meer data beschikbaar komt als open data. Zo heeft vorig jaar de MSc GIMA afstudeerder, Alexander Boersema gekeken naar de relatie tussen de grootschalige topografische kaart en de kadastrale kaart in de scriptie 'Towards a cooperation between the registry holders of the large scale topographic map and the cadastral map'. In de toekomst zullen de gebruikers steeds vaker geodata bronnen online gaan combineren en kunnen inconsistenties de geloofwaardigheid aantasten. Onverklaarbare verschillen zijn wel signalen om te onderzoeken, en mogelijk de kwaliteit te verbeteren. Hier kun je ook systematisch naar zoeken en niet afwachten totdat gebruikers er eerst tegen aanlopen.

Een andere trend is de toenemende rol van de gebruikers bij het opbouwen van geo-data (en dan niet alleen doorgeven van data fouten), maar ook echt zelf data inwinnen op meer of minder 'professionele' manier. Het vraagstuk van de datakwaliteit wordt hierdoor niet minder complex: vaak zal de temporele nauwkeurigheid omhoog gaan, maar soms ten koste van de geometrische nauwkeurigheid. We kunnen met z'n allen werken aan een dagverse kaart, maar wel belangrijk hierbij is ook de kwaliteit mee te nemen. In alle gevallen is het kunnen terugmelden van geconstateerde fouten, en het eventueel zelf kunnen herstellen een zeer belangrijk element: fouten kunnen voorkomen, als ze maar wel worden opgelost. Dan zullen de gebruikers blijven terugkomen volgens principe: 'gebruik = kwaliteit'.

Als u €1.000.000 aan datakwaliteit mocht besteden, wat zou u dan als eerste doen?

We spreken nu al vele decennia over kwaliteit van (geo)data. Er zijn vele publicaties, congressen en zelfs standaarden aan besteed. Toch voelt het nog niet goed, natuurlijk: 'gebruik=kwaliteit', maar we moeten verder. Kwaliteit kan niet alleen losse metadata zijn die gebruikers (en soms ook producenten) voor het gemak links laten liggen. Onze informatiemodellen moeten anders: niet kwaliteit erbij (als metadata), maar in de kern van de geodata zelf (net als de x-, y- en de z-coördinaat). De kwaliteit moet worden inbakken als dimensie in de geo-informatie systemen bij modelleren, opslag, bewerking, visualisatie en disseminatie. Ik zou daarom het geld besteden aan onderzoek, samen met commerciële en open source partijen, om deze geodata aardverschuiving te realiseren. Hierin worden fundamentele vragen gesteld als: hoe de q-dimensie te representeren, hoe gedraagt deze q-dimensie zich in operaties en ook de meer technologische vragen als: hoe deze q dan op te slaan en te bevragen (SQL), hoe deze te visualiseren op een voor de gebruiker eenvoudige manier. De 'q' zou moeten worden ondergebracht in de nieuwe (web) data transfer standaarden. Natuurlijk niet alleen in theorie, maar ook in (prototype) implementaties met DBMS en GIS systemen met echte geodata en toepassingen.