IT-visie op data

Uit ITforResearch bij Universiteit Utrecht

Toegankelijke data gaat over het beschikbaar zijn van data voor iedereen. Het woord “data” omvat alle soorten data die een onderzoeker of ondersteuner maakt, genereert, verzamelt of bewerkt tijdens zijn onderzoek. Dus bijv. ook interviewverslagen en lab notebooks. Beschrijvingen van experimenten, selecties van data en gebruikte methoden worden ook hiertoe gerekend. De data kunnen zowel bewerkt als onbewerkt zijn. Het brede publiek kan soms helpen bij het verzamelen of bewerken van data, dat valt onder IT-visie op citizen science.

Wat relevant is voor hergebruik of reproduceerbaarheid hangt af van wat gebruikelijk is in de betreffende onderzoeksdiscipline. Sommige onderzoekers maken gebruik van open of gesloten data van anderen. De duurzaamheid (bruikbaarheid op lange termijn) van data is ook belangrijk.

Het is niet reëel te verwachten dat alle data van de UU op termijn open beschikbaar zullen zijn. Soms kan dat niet om bijv. privacy- of contractuele redenen, of is het voor een bepaalde dataset niet zinvol. Voor zover mogelijk worden de metadata wel gedeeld. Open heeft wel de voorkeur, omdat een groot deel van het UU-onderzoek met publiek geld betaald wordt. De onderzoeksdiscipline of het departement van de betreffende onderzoeker bepaalt wat redelijk is om te delen en wat niet, en wat het juiste moment is om te delen. De onderzoeker zal altijd data verantwoord dienen op te slaan, omdat deze later nog nodig kunnen zijn voor reproduceerbaarheid van het onderzoek.

Behalve dat het toegankelijk maken van data acties van onderzoekers vraagt, geeft dit ook iets terug. Wanneer data met elkaar gedeeld worden, kan een onderzoeker daarop voortbouwen. Dat scheelt het “van de grond af aan” opbouwen van een dataset.

Dit hoofdstuk gaat ook over onderzoek met grootschalige datasets, over big data en over onderzoek met datasets van “normale” grootte die veel rekencapaciteit vergen. Hiervoor zijn vaak andere of extra voorzieningen nodig vergeleken met “gewone” datasets, omdat grootschalige datasets vaak niet meer op één computer passen of niet meer met één computer bewerkt kunnen worden. Het maken van selecties of levering van data aan derden kan ingewikkelder zijn. Daarbij kan het datadistributiecentrum UU helpen. Het omgaan met dit soort datasets vraagt ook om bepaalde expertise, bijv. rond large scale computing of storage (zie IT-visie op grootschalige IT-onderzoeksfaciliteiten).

Huidige IT-situatie[bewerken]

Met het Beleidskader onderzoeksdata UU, het Research IT programma UU en RDM Support is datamanagement aan de UU in een stroomversnelling gekomen. Steeds meer onderzoekers en ondersteuners weten het RDM support team te vinden en maken gebruik van faciliteiten die door Research IT en andere partijen ontwikkeld zijn, zoals Yoda, de datamanagementoplossing. Langzamerhand is er steeds meer IT- en menselijke ondersteuning beschikbaar, bijv. datamanagers die de juiste tools kennen.

Toch is er nog veel te doen. Uit gesprekken met onderzoekers blijkt dat het delen van data nog niet vanzelfsprekend gevonden wordt. Faciliteiten zijn te veel verspreid of onbekend, of niet te vinden, en er zijn weinig uniform te gebruiken faciliteiten en tools. Hierdoor kost het delen veel tijd van onderzoekers of ondersteuners. Ook is de zichtbaarheid van UU-data buiten de UU laag. Waarschijnlijk wordt UU-data nauwelijks gebruikt door onderzoekers uit andere instellingen of het brede publiek.

Trends en principes, uitgewerkt in UU-doelen, -ambities en -acties[bewerken]

Rond open data zijn de volgende trends en principes te herkennen:

  • Trend: delen van data;
  • Principe: onderzoekers zo veel mogelijk ontzorgen, zodat ze zich kunnen concentreren op onderzoek, met het Data lab.