knitr::opts_chunk$set( collapse = TRUE, comment = "#>" )
library(evavelo)
La méthode EVA-VELO propose de vérifier différentes valeurs numériques afin d'éliminer les valeurs extrêmes qui seraient liées à une erreur de saisie.
Les champs de l'enquête à vérifier sont:
km_sortie
revenu
dms
tour_dep_xxx
Eva-Scan permet d'identifier ces valeurs "extrêmes" sans pour autant modifier le fichier Excel. Ces valeurs identifiées doivent en effet être revues manuellement pour vérifier s'il s'agit d'une erreur de saisie ou non.
La vérification s'effectue par l'appel à la fonction check_num_outliers()
ou en cliquant sur Chercher valeurs numériques anormales dans l'application web.
L'ensemble des revenus de l'enquête sont analysés:
Cette méthode consiste à détecter le premier quartile (Q1) et le dernier quartile (Q3) puis de calculer l'écart interquartile IQR = Q3 - Q1 .
Nous détectons ensuite toutes les valeurs supérieures à Q3 + 1,5 x IQR
et toutes celles inférieures à Q1 - 1,5 x IQR
.
La méthode de détection des valeurs extrêmes sur km_sortie
est la même que pour revenu
avec une analyse séparée pour chacune des categorie_corrigee
.
Les valeurs de dms suivantes sont identifiées:
Pour ces analyses, le regroupement se fait par mode_heb_regroupe
. Si jamais un groupe a plus de 200 réponses, il est subdivisé en fonction de categorie_corrige_corrige
sans pour autant créer de groupes de moins de 50 réponses.
8 variables de type tour_dep_xxx
sont analysées en cherchant en cherchant le premier et dernier centile et en utilisant la méthode "1,5 x IQR".
Le regroupement va dépendre des variables:
Les dépenses suivantes sont regroupées par categorie_corrige
avant la recherche de valeurs anormales:
tour_dep_alim
,tour_dep_activites
tour_dep_souvenirs
tour_dep_location
tour_dep_autres
Les dépenses suivantes sont regroupées par mode_heb_regroupe
avant la recherche de valeurs anormales:
tour_dep_to_jour
,tour_dep_heb
La détection d'anomalies sur tour_dep_transp
est réalisée en effectuant un regroupement par la variable mode_transp_jour
à condition qu'il y ait a minima 100 réponses par mode de transport. Les modes de transports plus rares sont regroupés ensemble.
Eva-Scan va aussi détecter les cas pour lesquels mode_transport_jour
vaut "aucun" et qui ont cependant une valeur non nulle pour tour_dep_transp
## Calcul des categories corrigées categorie_corrige <- process_evavelo( evavelo::evavelo_example_geocoded )$enquetes_post_traitement$categorie_corrige
## Recherche des valeurs anormales check_num_outliers(evadata = evavelo_example_geocoded, categorie_corrige = categorie_corrige)
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.