Ce document est un complément de la documentation des fonctions. Il va vous permettre d'observer le cheminement dans la construction de la base de travail, afin que vous puissiez utiliser ce package au mieux et le comprendre un peu plus en détail.

Il vous faudra bien-sûr installer le package au préalable. Pour cela, vous trouverez toutes les infomations ici : https://github.com/guillaumelf/BarchenPackage

Une fois que c'est fait, il ne reste plus qu'à charger le package

library(Barchen)

L'extraction d'une table à partir du server

La première étape consiste à extraire les données à la source, si on veut pouvoir les exploiter. La commande suivante Barchen::extract_table() nous permet de réaliser ce travail. Vous pouvez consulter l'aide de cette fonction afin de regarder les arguments qu'elle prend en entrée.

?extract_table

Il faut déclarer une connexion à l'aide des instructions suivantes

username <- 'datastorm'
mdp <- 'Qes2CYrVGZ6SR8NTAenQ'
nom_base <- 'barchen_prod'
port_hote <- '188.165.234.113'

mydb <- DBI::dbConnect(MySQL(), user=username, password=mdp,
                  dbname=nom_base, host=port_hote)

# changement de l'encoding de retour

dbSendQuery(mydb, "SET character_set_results = 'utf8'")

Ensuite dans notre exemple on va extraire les logs à la date du jour

date <- Sys.Date()
condition <- paste0("time >= '",date,"'")
logs <- extract_table(mydb,"mdl_log",condition)
knitr::kable(head(logs, 10))

Ensuite on va modifier le format de la variable time

logs[, time := as.POSIXct(time, origin = "1970-01-01")]
knitr::kable(head(logs, 10))

Le principe sera le même avec les autres tables que vous voudrez extraire.

Si vous n'avez pas d'accès, vous pouvez charger le fichier d'exemple

data("logs",package = "Barchen")
knitr::kable(head(logs, 10))

L'ajout d'informations à partir de fichiers externes

Pour constituer la base de travail, certaines informations ont dû être ajoutées à partir de fichiers excel, toutes les variables n'étant pas présentes sur le server. La liste des fichiers utilisés est la suivante :

Les deux derniers fichiers servent à spécifier le type d'examen passé par un individu (examen certifié, double échelle ou validation interne). Nous allons regarder brièvement comment ces fichiers sont constitués. Il est primordial d'utiliser des fichiers ayant la même structure (noms de colonnes identiques) pour pouvoir reconstruire une base d'étude dans le futur.

Le fichier 'certificats.xlsx'

data("succes",package = "Barchen")
knitr::kable(head(succes, 5))

Le fichier 'envoiEchecs.xlsm'

data("echec",package = "Barchen")
knitr::kable(head(echec, 5))

Le fichier 'Extraction Résultats Validation Interne.xlsx'

data("res_vi",package = "Barchen")
knitr::kable(head(res_vi, 5))

Le fichier 'Stats formation.xlsx'

data("infos_fp",package = "Barchen")
knitr::kable(head(infos_fp, 5))

Le fichier 'COMPILATION_résultats BPCE 2016.xlsx'

data("infos_exam2016",package = "Barchen")
knitr::kable(head(infos_exam2016, 5))

Le fichier 'Complilation_Résultats BPCE 2017.xlsx'

data("infos_exam2017",package = "Barchen")
knitr::kable(head(infos_exam2017, 5))

Quelques exemples de graphiques

Une fois la base de travail obtenue et nettoyée, vous êtes en mesure de l'analyser en procédant à une Analyse en Composantes Principales (notre étude ne comportant quasiment que des variables quantitatives) puis à un clustering dérivant des résultats de l'ACP.

Après avoir obtenu les différents clusters, il convient de les analyser afin de connaître leur composition. Pour cela, nous utiliserons une application Shiny afin de rendre les choses plus visuelles.

Nous allons prendre quelques exemples des types de graphiques que vous pourrez retrouver dans l'application, afin que vous puissiez mieux comprendre le code présent dans les scripts.

On commence par charger le jeu de données d'exemple

data("clustering",package = "Barchen")

Puis un exemple de graphique tracé avec le package ggplot2

affiche_nb_quest_cumul(tab)

Mais aussi un exemple de graphique tracé grace au package rAmCharts

affiche_repartition(tab)

Cheminement de l'étude

L'ordre d'exécution des scripts est le suivant pour pouvoir refaire l'étude :

  1. extraction_tables.R
  2. modification_tables.R
  3. calcul_agregats_logs.R
  4. calcul_agregats_questions.R
  5. assemblage_nettoyage.R
  6. pca_clustering.R
  7. illustration_clusters.R
  8. prediction.R


guillaumelf/BarchenPackage documentation built on May 31, 2019, 11:50 p.m.