knitr::opts_chunk$set(echo = TRUE)

Les 2: data management

file management in general

knitr::include_graphics(
  here::here(
    "images",
    "phd_final1.png"
    )
)

file management in general

knitr::include_graphics(
  here::here(
    "images",
    "phd_final2.png"
    )
)

file management in general

knitr::include_graphics(
  here::here(
    "images",
    "phd_final3.png"
    )
)

Data management

file names true story

Maar gaat met data niet heel anders. wat kan je doen om dat te voorkomen?

FAIR data

knitr::include_graphics(
  here::here(
    "images",
    "EC_FAIR_data.png"
    )
)

folder structure

projectnaam
│   README.md
│   metadata.txt    
└───analyse
│   │   analyse_projectnaam.R
│   └───data
│   |   │   datalog.txt
│   |   │   data295834.csv
│   |   └───v1
│   |   │   | data295834.csv
│   └───data_raw
│       │   originaldatafile1.txt
│       │   originaldatafile2.txt
│   
└───verslag
    │   paper_projectnaam.docx

Hoe dan?

knitr::include_graphics(
  here::here(
    "images",
    "open_data_challenges.png"
    )
)

Licensing

creative commons

knitr::include_graphics(
  here::here(
    "images",
    "Understanding-Creative-Commons-Licenses-20.png"
    )
)

This course: open or not?

Metadata

Maar alleen de data delen is niet genoeg.

knitr::include_graphics(
  here::here(
    "images",
    "laderast_metadata.png"
    )
)

image credit: I got this slide from Ted Laderas

Examples metadata:

Discuss metadata:

Stel je voor: we willen twee datasets combineren van twee instellingen die hetzelde experiment hebben uitgevoerd: A) Theme hospital B) bejaardentehuis Avondrood.

In het experiment werd getest of een bepaald medicijn ervoor zorgt dat mensen afvallen, in vergelijking met een placebo. Deelnemers zijn gewogen voor en na behandeling.

Discuss metadata:

| patient | locatie | gewicht_voor | gewicht_na | |---------|----------------|--------------|------------| | A | Theme Hospital | 64 | 62 | | B | Theme Hospital | 71 | 70 |

Welke metadata zou je willen hebben als je de datasets wilt combineren?

Denk aan details op experiment-niveau, niet deelnemer-niveau (dus bijvoorbeeld: wat was de tijd tussen de twee meetpunten? Was dat op beide locaties hetzelfde?)

(dank aan Ted Laderas voor de opdracht)

bijvoorbeeld

| metadata | should be in data | |-------------------------------|------------------------| | tijdpad experiment | leeftijd participanten | | afgenomen door wie | andere medicijnen? | | soort weegschaal | | | dosis medicijn | | | naam project | | | welke variabelen zijn gemeten | | | waar is de data? | | | protocol | | | informed consent formulieren | |

Les 2: planning vandaag



DataScienceILC/tlsc-dsfb26v-20_workflows documentation built on July 4, 2025, 5:49 a.m.