Nieuws

Tool stroomlijnt data uit verschillende consumentenonderzoeken

article_published_on_label
20 mei 2025

Door verschillen in opzet en schaalgrootte zijn data uit vragenlijsten niet zomaar op elkaar te leggen. Robbert Robbemond en zijn collega’s ontwikkelden een tool waarmee data volgens de FAIR-principes worden gestroomlijnd. Dit levert diepere inzichten én tijdwinst voor onderzoekers op.

Robbert werkt als onderzoeker bij Wageningen Social & Economic Research (WSER) op het snijvlak tussen wetenschap en IT. Behoeften van wetenschappers vertalen naar technologische oplossingen, daar ligt zijn hart. Om precies te weten waar wetenschappers behoefte aan hebben, werkt hij nauw met ze samen. Het data science & innovation-team waar Robbert onderdeel van uitmaakt, kreeg als opdracht een oplossing te verzinnen voor een probleem dat in essentie een standaardiseringsvraagstuk is: “Een van onze onderzoeksgroepen richt zich op voeding en consument. Vaak gaan die onderzoeken over vergelijkbare onderwerpen. Maar doordat surveys verschillend zijn opgezet en zich op verschillende schaalgroottes richten, zijn data uit die surveys niet zomaar te koppelen.”

Het probleem van de verschillende typen vragenlijsten op te lossen, stelden Robbert en zijn collega’s een ‘bibliotheek’ van standaardvragen op. Met die vragen, die aansluiten op de protocollen van COMFOCUS, kunnen onderzoekers hun vragenlijsten voortaan opbouwen. Dit heeft zich doorontwikkeld tot een tool waarmee zij hun vragenlijst ook kunnen ontwerpen. Die vragenlijst kan via een import-exportfunctie in de enquêtetool Qualtrics worden gezet, waarmee de onderzoeker de vragenlijst uitzet en data verzamelt. De data wordt vervolgens op geautomatiseerde wijze gestructureerd in een veilige database opgeslagen, zonder dat de onderzoeker daar technische skills voor hoeft te hebben.

Koppeling met datawarehouse

De kern van dit WCDS-project gaat over de koppeling waarmee onderzoeksdata met een druk op de knop in Adagio, het datawarehouse van WSER, worden opgenomen. Het proces bestaat uit twee stappen. Eerst wordt de vragenlijst automatisch verwerkt tot een datamodel en wordt de database door software gegenereerd. Daarna kan de onderzoeker de verzamelde data laden in zijn eigen stukje database. Doordat de onderzoeker de vragenlijst kan opbouwen met vragen uit de databibliotheek, scheelt dit volgens Robbert de onderzoeker veel werk: “Veelgebruikte vragen staan voor je klaar wat het eenvoudig maakt om een vragenlijst ‘bij elkaar te klikken’. Vervolgens zijn alle verzamelde data automatisch FAIR: findable, accessible, interoperable en reusable. De data kunnen benaderd worden via een gestandaardiseerde interface. Voorwaarde is natuurlijk wel dat onderzoekers passende toegangsautorisaties instellen zodat de data ‘zo open mogelijk is, maar zo gesloten als noodzakelijk.”

Dicht op het domein

Door te harmoniseren, kunnen onderzoekers volgens Robbert veel diepere inzichten uit bestaande datasets halen. Het is dan wel belangrijk dat onderzoekers weten hoe de tool werkt. Robbert: “Projecten als deze worden vaak vanuit een technische invalshoek benaderd. Met als risico dat er een oplossing wordt gevonden die gebruikers niet snappen of die niet goed aansluit op wat ze nodig hebben. Ons voordeel is dat we heel dicht op het domein van voeding en consument zitten. Ook de samenwerking met het EU-programma COMFOCUS hielp mee. Doel van dit programma is om onderzoeksmethoden in dit domein te harmoniseren. De behoefte om over individuele datasets heen te kunnen redeneren, was groot. Vanuit die behoefte hebben we een infrastructuur ontworpen die deels gebaseerd is op bestaande tooling, zoals EQT, Adagio, en iRODS. Daardoor konden we relatief snel een werkend systeem aanbieden.”

Toekomst

Ondertussen werken Robbert en zijn collega’s aan een automatische koppeling waarmee onderzoekers niet eens meer zelf databestanden hoeven te exporteren en importeren. En om de dataflow nog eenvoudiger te maken, kunnen onderzoekers in de toekomst zelf een DOI genereren voor hun dataset. “Daardoor kan de onderzoeker nog beter aan de FAIR-principes voldoen”

Als het aan hem ligt, wordt er in de toekomst door veel meer onderzoeksdomeinen gebruik gemaakt van deze infrastructuur. “De huidige opzet is geschikt voor iedere onderzoeker die vragenlijsten gebruikt. Daarom willen we de infrastructuur geschikt maken om door andere onderzoeksgroepen in gebruik te nemen. Ongeacht met welke technologiestack ze werken. Onze huidige implementatie draait op een Microsoft-oplossing, maar we zijn we momenteel in gesprek om een platformonafhankelijke versie te maken.”