Longread

Goed datamanagement maakt het leven van onderzoekers makkelijker


Duizenden satellietkaarten van over de hele wereld in één klap analyseren, de Nederlandse wildstand via camerabeelden automatisch registreren, resultaten van laboratoriumonderzoek een paar minuten later als kant-en-klaarpakketje op je pc vinden. Datamanagement mag dan ingewikkeld klinken: het maakt het leven van een onderzoeker makkelijker, zegt Erik van den Bergh. Hij is coördinator infrastructuur van het Wageningen Data Competence Center (WDCC): ‘Door gegevens op de juiste manier te koppelen, kun je er veel meer mee en dat is supergaaf.’

Eigenlijk is Erik Van den Bergh (32) een soort architect. Hij luistert naar de wensen van een onderzoeker en ontwerpt een digitaal ‘huis’ op maat. Dat kan zo simpel zijn als het bestellen van een andere computer en installeren van de juiste software, maar kan ook het onderzoek automatiseren én zodanig ontsluiten dat véél meer mensen er gebruik van kunnen maken.

Zoals?

“Denk maar eens aan alle data die bij Marine Research worden verzameld. Ze meten héél veel verschillende dingen, van de getijstromingen tot de mosselgroei: bij elkaar een enorme hoop gegevens. Giet je die in één platform – een interactieve kaart - dan is al die informatie in één oogopslag zichtbaar. Voor de onderzoekers zelf, maar ook voor de buitenwereld, zoals de overheid, bedrijven en geïnteresseerde burgers. Uiteindelijk willen onderzoekers dat hun data ertoe doen, gebruikt worden. Door gegevens op de juiste manier te koppelen, kun je er veel meer mee en dat is supergaaf.”

Veel onderzoekers krijgen de kriebels van datamanagement en dat snap ik wel
Erik van den Bergh is coördinator infrastructuur van het WDCC. Beeld: eigen foto
Erik van den Bergh is coördinator infrastructuur van het WDCC. Beeld: eigen foto

Supergaaf voor een IT-er als jij, maar vindt de gemiddelde onderzoeker dat ook?

“Veel onderzoekers krijgen de kriebels van datamanagement en dat snap ik wel. Ze staan onder grote druk, moeten in korte tijd en met weinig middelen baanbrekende resultaten boeken én daar zoveel mogelijk over publiceren. Nadenken over hoe ze hun data opslaan en verwerken is dan niet hun eerste prioriteit. Precies daarom is het WDCC dat al sinds 2017 bestaat nog steeds niet zo zichtbaar. Maar ja, waarom zou je vragen naar iets dat je niet kent?”

Waarom moeten collega’s jou tóch een keertje bellen?

“We zouden collega’s ontzettend kunnen helpen met hun onderzoek. Datasystemen kunnen het werk juist makkelijker maken! Op verschillende niveaus: van computerkeuze tot software, maar het gaat nog veel verder, denk aan de inzet van kunstmatige intelligentie. Dat kan een onderzoeker heel veel werk uit handen nemen, immers train je een computer om als het ware zelf na te denken en zelfstandig te analyseren bijvoorbeeld.”

Als je een computer traint om zelf ‘na te denken’ kan dat een onderzoeker héél veel werk schelen

Waar bij WUR zijn we al zo geavanceerd bezig?

“Bij Wildlife Ecology and Conservation bijvoorbeeld. Daar houden ze met camera’s door het hele land de wildstand bij. Nu worden die beelden nog gelabeld door vrijwilligers - zo van dit is een hert en dat een wild zwijn - maar we willen op termijn dat een computerprogramma dat zelfstandig gaat doen. Door heel veel beelden van dieren te laten zien, leer je software een hert of een wild zwijn te herkennen en kan de registratie automatisch plaatsvinden. Dat is handig voor de onderzoeker, maar ook voor bijvoorbeeld een gemeente of provincie die wil weten of een bouwplan wel door kan gaan in verband met de aanwezigheid van wilde of zeldzame dieren. Een soortgelijk mechanisme wordt ontwikkeld bij Agrosysteemkunde waar duizenden satellietfoto’s van akkers wereldwijd binnenkomen. Door al die beelden te analyseren op dingen als bodemgebruik, groei van gewassen en bemesting kun je uiteindelijk voorspellen wat waar het beste groeit. Handmatig is dat een enorme klus, maar als een computersysteem de analyse overneemt, weet je heel snel wat je het beste kunt verbouwen op een akker in, noem eens wat, Costa Rica.”

Om de wildstand bij te houden kan een computer videobeelden – bijvoorbeeld van edelherten - zelfstandig herkennen, zodat vrijwilligers dat niet hoeven te doen. Beeld: Shutterstock
Om de wildstand bij te houden kan een computer videobeelden – bijvoorbeeld van edelherten - zelfstandig herkennen, zodat vrijwilligers dat niet hoeven te doen. Beeld: Shutterstock
Satellietfoto’s waarop akkers te zien zijn kunnen automatisch worden geanalyseerd, zodat duidelijk is welk gewas waar het beste groeit. Beeld: Shutterstock
Satellietfoto’s waarop akkers te zien zijn kunnen automatisch worden geanalyseerd, zodat duidelijk is welk gewas waar het beste groeit. Beeld: Shutterstock

Dat scheelt uren, dagen, misschien wel maanden werk?

“Ja. En het gaat nog verder voor wie wil. Neem de afdeling Synthetische en Systeembiologie. Onderzoekers voeren in het lab DNA-analyses uit, die worden automatisch geüpload naar een computer. De computer checkt direct of de uitkomsten kwalitatief deugen en stuurt binnen luttele minuten de resultaten door als een kant-en-klaarpakketje.”

Stap één? Sla je data goed op, zodat het vindbaar is nu en later

Oké, maar werkt dit alleen voor onderzoekers die metingen doen en beelden analyseren?

“Nee, de analyse van vragenlijsten kan door datamanagement bijvoorbeeld ook een vlucht nemen. Denk aan de invulformulieren van allerlei deelonderzoeken bij Humane Voeding en Gezondheid. In elk onderzoek zitten wel een aantal mensen van bijvoorbeeld Surinaamse komaf, maar te weinig om iets zinnigs te kunnen zeggen over hun voedselgebruik. Koppel je data aan elkaar dan heb je ineens wel genoeg mensen op basis waarvan je conclusies kunt trekken. Ook in internationaal perspectief zorgt goed datamanagement  voor belangrijke inzichten. Dat zien we nu bij Covid-19. In één wereldwijde dataportal worden de genetische testresultaten van besmette personen opgenomen. Zo kun je later zien welke mutaties van het virus verantwoordelijk waren voor welke uitbraak.”

Dat klinkt geweldig, maar hoe zet je de eerste stap in goed datamanagement?

“Opslag van je data is stap één. Dat zie je ook bij die Covid-database. Uniform opslaan op een plek waar iedereen – weliswaar met toestemming - bij kan, nu én later, is essentieel. Daarom ben ik op dit moment bezig met de introductie van iRods en YODA: systemen die de centrale opslag van data binnen WUR mogelijk maken en waarmee uitwisseling tussen universiteiten makkelijker wordt. Nu slaan veel collega’s hun resultaten en metadata (informatie over de onderzoeksomstandigheden, red.) nog vaak op in bijvoorbeeld Excelbestandjes op een USB-stick of een losse harde schijf, maar dat is niet betrouwbaar – die kun je immers zomaar kwijtraken -  en bovendien niet duurzaam: ook andere wetenschappers moeten (later) bij data kunnen om de resultaten opnieuw te beproeven. Dat moet ook wel om te voldoen aan FAIR.”

FAIR?

“De G20 heeft in 2016 al gezegd dat onderzoeksdata moeten voldoen aan het FAIR-principe. Findable (vindbaar), accessible (toegankelijk), interoperable (geschikt om in verschillende programma’s aan te werken) en reusable (herbruikbaar). Om data vindbaar en toegankelijk te maken, moet je ze zodanig opslaan dat ze niet verdwijnen als een onderzoeker de universiteit met zijn USB-stick verlaat. Maar om data vervolgens ook herbruikbaar te maken, moet er een duidelijke omschrijving zijn van de metadata. Daarin wordt uitgelegd hoe de data zijn verzameld, met welke apparatuur en in welke omstandigheden. De Nederlandse organisatie voor Wetenschappelijk Onderzoek (NWO) stelt FAIR data nu als eis om kans te maken op onderzoeksbeurzen.”

Dus alleen als je je data openbaar maakt, krijg je nog een beurs?

“Nee, dat is een misverstand. Onderzoekers denken dat FAIR data hetzelfde is als het ‘open data’, ofwel volledig publiek toegankelijk. En ze zijn dan bang dat Jan en alleman met hun gegevens aan de haal gaan. Maar FAIR betekent puur dat een onderzoeker zijn data zo beheert dat zijn resultaten deelbaar zijn, vervolgens bepaalt hijzelf wie hij toegang verleent: dat kan één collega zijn óf de hele wereld.

En wat moet een collega doen om FAIR te worden?

“Kijk naar een korte Powerpointpresentatie over Yoda en je weet je al hoe je gegevens beter kunt opslaan. Het is echt eenvoudiger dan je denkt. Maar ook als je meer wil met je data: bel me gewoon of mail naar data@wur.nl en ik denk met je mee. Soms zijn anderen al met iets soortgelijks bezig en dan koppel ik afdelingen aan elkaar of we bedenken samen een oplossing op maat.”