knitr::opts_chunk$set(echo = TRUE)

Pourquoi ?

Cette vignette a pour but d'expliciter le nettoyage de données en utilisant impactR. A noter que les fonctions de nettoyage sont liées aux fonctions de suivi de collecte de données. Ainsi, si vous n'utilisez pas les fonctions de suivi de collecte de données, il vous faudra faire correspondre votre journal de nettoyage aux fonctions présentées ci-après.

# Si vous n'avez pas encore installé le package
# devtools::install_github("impactR)
library(impactR)

Ci-dessous, on peut importer des données collectées.

# Load dataset in environment
data(data)

# Show the first lines and types of airports' tibble
data <- data |> tibble::as_tibble()

On importe la feuille 'survey' :

data(survey)
survey <- survey |> tibble::as_tibble()

La première chose à faire avec l'objet 'survey', car il sera utilisé ailleurs : il faut séparer en deux la colonne 'type'.

# Mis à part l'argument 'col_to_split' (la colonne à séparer), les autres paramètres sont les paramètres par défaut
survey <- survey |>  
  split_survey(
    col_to_split = "type",
    into = c("type", "list_name"),
    sep = " ",
    fill = "right")

On importe les choix :

data(choices)
choices <- choices |> tibble::as_tibble()

On importe le journal de nettoyage :

data(cleaning_log)
cleaning_log <- cleaning_log |> tibble::as_tibble()

Nettoyer les données

C'est aussi simple que deux étapes.

1- Vérifier si le journal de nettoyage est minimalement bien rempli :

check_cleaning_log(cleaning_log, data, uuid, "autre_")
# Si NULL, alors c'est ok

2 - Utiliser la fonction clean_all() :

cleaned_data <- clean_all(data, cleaning_log, survey, choices, uuid, "autre_")

L'objet cleaned_data est le jeu de données nettoyé avec :



gnoblet/impactR documentation built on March 20, 2023, 2:24 a.m.