In MTES-MCT/savoirfR: Exercices for mtes-mctrct r course modules

Nous continuons de travailler sur les indicateurs au territoire df avec les variables que nous avons calculées à l'exercice 3.

1- Utilisez la fonction summary() pour obtenir un résumé de l’ensemble des variables de la table df
2- Calculez maintenant les moyenne, médiane, écart-type et variance de la variable de densité de population. Que constatez-vous ?
3- Utilisez le paramètre na.rm = T pour gérer les valeurs manquantes
4- Calculez à présent les quartiles puis déciles de cette variable
5- Optionnel : calculez la version centrée réduite de la variable de densité Rappel sur la définition de centrer réduire. Avantage des variables centrées réduites : on élimine les effets d'unité (d'ordre de grandeur), et on peut donc comparer les distributions de deux variables qui ont des unités différentes (voir module 3).

6- Tableaux croisés :

Calculez le nombre de communes par type d’espace à l’aide de la fonction table, et le pourcentage associé
Calculez le nombre de communes par région et type d’espace, et les pourcentages associés

library(dplyr)
df <- read.csv(file = system.file("extdata", "Base_synth_territoires.csv", package = "savoirfR"),
               header = TRUE, sep = ";", dec = ",", fileEncoding = "latin1",
               colClasses = c(rep("character", 2), rep("factor", 4) , rep(NA, 32))) %>% 
  mutate(densite = P14_POP / SUPERF,
         tx_natal = 1000 * NAISD15 / P14_POP,
         tx_mort = 1000 * DECESD15 / P14_POP)

Résultat attendu :

library(dplyr)

# 1  
summary(df)

# 2
vect_densite <- df %>% pull(densite)
mean(vect_densite)
sd(vect_densite)
median(vect_densite)
var(vect_densite)

# 3
mean(vect_densite, na.rm = T)
sd(vect_densite, na.rm = T)
median(vect_densite, na.rm = T)
var(vect_densite, na.rm = T)

# 4
quantile(vect_densite, na.rm = T)
seq(0, 1, 0.1) # vérifier la séquence qu'on souhaite
quantile(vect_densite, probs = seq(0, 1, 0.1), na.rm = T)

# 5
df <- df %>% 
  mutate(std_dens = (densite - mean(densite, na.rm = T)) / sd(densite, na.rm = T))

#6 
# une variable
t <- select(df, ZAU) %>% 
  table()
t
100 * prop.table(t) %>% round(digits = 4)

# deux variables
t <- select(df, REG, ZAU) %>% 
  table()
t
100 * prop.table(t) %>% round(digits = 4)