knitr::opts_chunk$set(echo = TRUE)
Cette vignette a pour but d'expliciter le nettoyage de données en utilisant impactR. A noter que les fonctions de nettoyage sont liées aux fonctions de suivi de collecte de données. Ainsi, si vous n'utilisez pas les fonctions de suivi de collecte de données, il vous faudra faire correspondre votre journal de nettoyage aux fonctions présentées ci-après.
# Si vous n'avez pas encore installé le package # devtools::install_github("impactR) library(impactR)
Ci-dessous, on peut importer des données collectées.
# Load dataset in environment data(data) # Show the first lines and types of airports' tibble data <- data |> tibble::as_tibble()
On importe la feuille 'survey' :
data(survey) survey <- survey |> tibble::as_tibble()
La première chose à faire avec l'objet 'survey', car il sera utilisé ailleurs : il faut séparer en deux la colonne 'type'.
# Mis à part l'argument 'col_to_split' (la colonne à séparer), les autres paramètres sont les paramètres par défaut survey <- survey |> split_survey( col_to_split = "type", into = c("type", "list_name"), sep = " ", fill = "right")
On importe les choix :
data(choices) choices <- choices |> tibble::as_tibble()
On importe le journal de nettoyage :
data(cleaning_log) cleaning_log <- cleaning_log |> tibble::as_tibble()
C'est aussi simple que deux étapes.
1- Vérifier si le journal de nettoyage est minimalement bien rempli :
check_cleaning_log(cleaning_log, data, uuid, "autre_") # Si NULL, alors c'est ok
2 - Utiliser la fonction clean_all() :
cleaned_data <- clean_all(data, cleaning_log, survey, choices, uuid, "autre_")
L'objet cleaned_data est le jeu de données nettoyé avec :
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.