README.md

Tenter d’y voir clair dans l’ESR : tutorial R/WikidataESR

Julien Gossa 02/10/2022

Des visualisations de contrôles pour de nombres établissement de l’ESR sont disponibles ici : check

Guide de style pour les données wikidata

Les réformes successives touchant l’organisation de l’enseignement supérieur et de la recherche (ESR) depuis une quinzaine d’années ont profondément modifié le paysage universitaire français. Aujourd’hui, les transformations institutionelles sont si nombreuses et si rapides, qu’il est devenu impossible de connaitre la structure actuelle des établissements de l’ESR.

Il existe trois sources principales d’informations sur les établissements de l’ESR français :

Les deux premières sources ne sont pas communautaires, et proposent essentiellement des jeux de données brutes. En revanche, WikiData permet l’édition collaborative, plus adaptée au rythme actuel des transformations. Il permet également de structurer les données grace à un très large choix de relations. La contrepartie de ces deux avantages est la difficulté à uniformiser les données, passage indispensable à leur exploitation.

C’est pourquoi ce document est un guide visant l’harmonisation des informations sur l’organisation de l’enseignement supérieur français disponibles publiquement sur la base de donnée collaborative WikiData.

Proposition de modélisation

Le principe de la modélisation des informations dans WikiData est relativement simple :

Pour l’utilisation particulière de WikiData, on pourra se reporter à cette introduction.

Entête des éléments

Les éléments présentent quatre informations indispensables :

Par exemple, pour l’UCA :

Propriétés

Les propriétés permettent de modéliser les relations entre les établissements de l’ESR. La proposition suivante permet d’harmoniser les informations :

| id | libellé.wikidata | libellé.ESR | note | qualificatif | |:------------------------------------------------------|:---------------------|:--------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------| | P31 | nature de l’élément | nature | voir la liste en annexe | | | P3202 | code UAI | | permet de faire le lien avec les autres bases de données | | | P571 | date de fondation | fondation | | | | P576 | date de dissolution | dissolution | | | | P527 | comprend | associé | lien de subordination horizontal : avec une moindre hiérachie, avec une indépendance politique et financière | date de début date de fin | | P361 | partie de | associé de | inverse de associé | date de début date de fin | | P355 | organisation filiale | composante | lien de subordination vertical: avec hiérarchie et dépendance politique ou financière accrue | date de début date de fin | | P749 | organisation mère | composante de | inverse de composante | date de début date de fin | | P1365 | remplace | prédécesseur | marque un changement de statut | date | | P1366 | remplacé par | successeur | inverse de prédécesseur | date | | P807 | séparé de | | marque une séparation, lorsqu’un établissement nouveau est créé à partir d’une partie d’un autre, qui continue d’exister (doit être renseigné dans les deux établissements) | date | | P7888 | fusionné dans | absorbé par | marque une absorbtion, lorsqu’un établissement est dissout et fusionné dans un autre qui existait auparavant (doit être renseigné dans les deux établissements) | date | | P1416 | affilié à | | pour le lien avec les organismes nationnaux (tutelles, EPIC, ONR, rectorat, etc.) | date de début date de fin | | P463 | membre de | | pour les adhésions aux diverses associations, également pour l’IDEX (de façon un peu abusive) | date de début date de fin | | P1830 | propriétaire de | | pour les équipements de recherche par exemple | date de début date de fin | | P1344 | participant à | | pour les projets par exemple | date de début date de fin |

Erreurs fréquentes

Afin d’harmoniser au mieux les informations, il est utile d’éviter plusieurs erreurs fréquentes.

Il est recommandé d’utiliser autant d’éléments que de nécessaires, sans tenter de réutiliser ceux qui existent. Cela vaut aussi bien pour les établissements composites (regroupements) que pour les établissements qui changent de statuts au cours du temps.

En particulier, les universités qui retrouvent leur nom historique après une re-fusion ne doivent surtout pas réutiliser l’élément historique. De même pour les universités qui gardent le même nom mais changent de statut. Globalement, chaque changement d’UAI doit être marqué par un changement d’élément wikidata.

Il existe de très nombreux statuts d’établissement de l’ESR, ou qui s’en approchent. Il est recommandé d’éviter d’utiliser des statuts génériques (“centre de recherche”), et de stipuler le statut la plus précise possible de l’établissement (“UMR”). Dans l’idéal, le statut se confond avec la forme juridique. Stipuler plusieurs statuts doit être réservé au cas où l’établissement a effectivement une nature composite.

Une liste de statuts recommandés et déconseillés est donnée en annexe.

Les organisations des regroupements de l’ESR étant particulièrement complexes, il est indispensable d’utiliser les propriétés les mieux adaptées, notamment pour différencier les membres pleinement intégrés (appelés ici “composante”) des membres seulement associés.

De plus, même si les tutelles (EPST, EPCA, EPIC…) sont membres des regroupements, il est recommandé de les déclarer sous forme d’affiliation pour les différencier des établissements composantes ou associés.

Enfin, les adhésions aux diverses associations (CPU, CURIF, LERU, COUPERIN…) doivent être déclarées avec “membre de”, toujours pour les différencier des autres types de relations.

Status et niveaux

Niveaux

Les statuts d’établissement sont hiérarchisés en différents niveaux :

| niveau | libellé | description | exemple | |-------:|:--------------|:------------------------------------------------------------------------------------------------------------|:----------------------------------------| | 1 | national | institutions nationales | CNRS | | 2 | regroupement | groupe d’établissement ou intitutions régionales | COMUEs | | 3 | établissement | établissements de grande taille ou institutions locales | universités | | 4 | intermédiaire | établissements de moindre taille, premier sous-niveau des grands établissements, ou réseau d’établissements | école indépendante, collégium, COUPERIN | | 5 | composante | sous-partie d’un établissement | UFR ou UMR | | 6 | autre | ni établissement, ni institution, généralement de petite taille | équipements ou projets |

Cette hiérarchisation est faite hors wikidata, directement dans la librairie R/wikidataESR.

Liste des statuts recommandés

| wikidata.id | libellé | niveau | note | wikipedia | |:-------------------------------------------------------|:----------------------------|-------:|:-----|:-----------------------------------------------------------------------------------------------------------------------------| | Q13582798 | EPST | 1 | NA | ref | | Q3244038 | EPCA | 1 | NA | ref | | Q3591583 | EPIC | 1 | NA | ref | | Q61612084 | PRES | 2 | NA | ref | | Q15974764 | COMUE | 2 | NA | ref | | Q77979904 | EPE | 2 | NA | ref | | Q3412198 | Regroupement universitaire | 2 | NA | ref | | Q2822246 | Académie | 2 | NA | ref | | Q3551775 | Université (EPSCP) | 3 | NA | ref | | Q1542938 | Grand Établissement | 3 | NA | ref | | Q3591586 | EPSCP | 3 | NA | ref | | Q135436 | École normale supérieure | 3 | NA | ref | | Q3457065 | réseau universitaire | 4 | NA | ref | | Q6542557 | consortium de bibliothèques | 4 | NA | ref | | Q1059324 | CHU | 4 | NA | ref | | Q3152659 | IUT | 4 | NA | ref | | Q1475041 | IEP | 4 | NA | ref | | Q3578562 | ESPÉ | 4 | NA | ref | | Q184644 | école supérieure de musique | 4 | NA | ref | | Q1143635 | école de commerce | 4 | NA | ref | | Q383092 | école d’art | 4 | NA | ref | | Q479716 | presse universitaire | 4 | NA | ref | | Q22806 | bibliothèque nationale | 4 | NA | ref | | Q3550864 | UMR | 5 | NA | ref | | Q43371084 | UPR | 5 | NA | ref | | Q3550863 | UMS | 5 | NA | ref | | Q43371093 | FRE | 5 | NA | ref | | Q109584561 | USC | 5 | NA | ref | | Q3279950 | MSH | 5 | NA | ref | | Q3550804 | UFR | 5 | NA | ref | | Q13220391 | école doctorale | 5 | NA | ref | | Q57314035 | faculté de médecine | 5 | NA | ref | | Q856234 | bibliothèque universitaire | 5 | NA | ref | | Q180958 | composante | 5 | NA | ref | | Q1254933 | observatoire astronomique | 6 | NA | ref | | Q1298668 | projet de recherche | 6 | NA | ref | | Q28863779 | équipe de recherche | 6 | NA | ref | | Q1241025 | équipe de recherche | 6 | NA | ref |

Liste des statuts déconseillés

La plupart des statuts dans cette liste sont déconseillés parce que des statuts plus précises existent.

| wikidata.id | libellé | niveau | note | wikipedia | |:-----------------------------------------------------|:----------------------------------|-------:|:-------------------------------------------------------------------------------|:----------------------------------------------------------------| | Q10861173 | Système universitaire | 1 | Préferer réseau universitaire (Q3457065), COMUE (Q15974764) ou EPE (Q77979904) | ref | | Q2659904 | organisation gouvernementale | 1 | Statut trop imprécis | ref | | Q327333 | agence publique | 1 | Statut trop imprécis | ref | | Q65963615 | EPE | 2 | Préférer Q77979904 | ref | | Q43229 | organisation | 2 | Statut trop imprécis | ref | | Q15911314 | association | 2 | Statut trop imprécis | ref | | Q15343039 | établissement public | 3 | Statut trop imprécis | ref | | Q270791 | entreprise d’État | 3 | Statut trop imprécis | ref | | Q902104 | université privée | 3 | Statut trop imprécis | ref | | Q1371037 | institut de technologie | 3 | Statut trop imprécis | ref | | Q16917 | hôpital | 3 | Préférer CHU | ref | | Q2945655 | CH | 3 | Préférer CHU | ref | | Q3918 | université | 3 | Statut trop imprécis | ref | | Q847027 | Grande ecole | 3 | Réserver aux écoles non contemporaines | ref | | Q875538 | université publique | 3 | Statut trop imprécis | ref | | Q194166 | consortium | 4 | Préferer réseau universitaire (Q3457065) | ref | | Q1663017 | école d’ingé | 4 | Statut trop imprécis | ref | | Q3578166 | École nationale supérieure | 4 | Confusion avec les ENS | ref | | Q2385804 | institution éducative | 4 | Statut trop imprécis | ref | | Q189004 | Collége | 4 | Statut trop imprécis | ref | | Q4287745 | organisation de santé | 4 | Statut trop imprécis | ref | | Q13226383 | site | 5 | Statut trop imprécis | ref | | Q3914 | école | 5 | Statut trop imprécis | ref | | Q483242 | laboratoire | 5 | Statut trop imprécis | ref | | Q31855 | institut de recherche | 5 | Statut trop imprécis | ref | | Q1664720 | institut | 5 | Statut trop imprécis | ref | | Q7315155 | centre de recherche | 5 | Statut trop imprécis | ref | | Q4671277 | institut universitaire | 5 | Statut trop imprécis | ref | | Q38723 | institut d’enseignement supérieur | 5 | Statut trop imprécis | ref | | Q3356144 | ODAC | 5 | Statut trop imprécis | ref | | Q7075 | bibliothèque | 5 | préférer BU/biliothèque universitaire (Q856234) | ref | | Q1622062 | college library | 5 | Préférer bibliothèque universitaire (Q856234) | ref | | NOID | statut manquant | 6 | Absence de propriété P31 (instance_of/nature de l’élément) | ref |

Manuel d’édition

En complément des informations propres à wikidata, disponibles sur le portail communautaire, ces procédures aident aux premières éditions des données sur l’ESR.

Bonnes pratiques

Ajouter un établissement/organisation/structure

Dans wikidata, les établissements/organisations/structures sont représentés par des éléments.

  1. Vérifier que l’élément n’existe pas déjà en cherchant son nom sur wikidata.
    • Surtout, ne jamais créer d’élément en double
  2. Si l’élément nexiste pas, la page de recherche renvoie un lien permettant d’en créer un nouveau.
  3. Renseigner Libellé (nom complet), Description et Alias (sigle/nom court).
    • Une fois créé, l’élément dispose d’un identifiant wikidata unique, sous la forme Qxxxxxxx, indiqué dans son adresse internet et à droite de son nom entre parenthèses.
  4. Renseigner le statut de l’établissement/organisation/structure :
    1. Choisir Ajouter une déclaration ;
    2. Dans Propriété choisir Nature de l'élément ;
    3. Rechercher et sélectionner le statut le plus précis possible :
      • WikidataESR propose une liste des statuts recommandés ;
      • En cas de doute, choisissez une statut générique (e.g. laboratoire plutôt que UMR), même si ce statut n’est pas recommandé.
    4. Choisir Publier.
  5. (Optionnel) En utilisation la même procédure, ajouter les informations additionnelles (dates de création, adresse, Identifiant UAI ou UMR, etc.).

Ajouter une relation entre deux entités

Dans wikidata, les relations entre les établissements/organisations/structures sont représentées par des propriétés, qui doivent être ajoutées dans toutes les entités concernées.

Les relations sont orientées : elles sont renseignées dans un élément source et indiquent un élément destination.

  1. Identifier la propriété la plus adéquate à la relation en utilisant la [liste des propriétés wikidataESR](#Propriétés.
    • Attention : les propriétés ont une appellation wikidata qui diffère légèrement de l’appellation wikidataESR.
  2. Depuis la page wikidata de l’élément source, Ajouter une déclaration.
  3. Renseigner l’élément destination dans la propriété.
  4. (Optionnel) Ajouter les informations annexes grâce aux qualitatifs (par exemple, date de début et date de fin).
  5. (Optionnel) Ajouter les références (par exemple décret ou site web).
  6. Choisir Publier.
  7. Si la relation est symétrique (par exemple, organisation filiale et organisation mère), recommencer en inversant source et destination.

Modifications fréquentes

Une composante (UFR/labo) de l’établissement est manquante

  1. Vérifier l’existence d’un élément wikidata pour la composante :
  2. Depuis la page wikidata de l’établissement :
    • Ajouter une déclaration/organisation filiale, et choisir l’élément wikidata de la composante (voir Ajouter relation) ;
  3. Depuis la page wikidata de la composante :
    • Ajouter une déclaration/organisation mère, et choisir l’élément wikidata de la composante.

Une association (COMUE, etc.) de l’établissement est manquante

  1. Depuis la page wikidata de l’établissement :
    • Ajouter une déclaration/comprend, et choisir l’élément wikidata de l’association (voir Ajouter relation) ;
    • Ajouter qualitatif/date de début ;
  2. Depuis la page wikidata de l’association :
    • Ajouter une déclaration/partie de, et choisir l’élément wikidata de l’établissement ;
    • Ajouter qualitatif/date de début.

Une tutelle de l’établissement est manquante

  1. Depuis la page wikidata de l’établissement :
    • Ajouter une déclaration/affilié à, et choisir l’élément wikidata de la tutelle (voir Ajouter relation)

Une adhésion de l’établissement à une organisation est manquante

  1. Depuis la page wikidata de l’établissement :
    • Ajouter une déclaration/membre de, et choisir l’élément wikidata de l’organisation (voir Ajouter relation) ;
    • (Optionnel) Ajouter qualitatif/date de début.

Une relation (composante/tutelle/adhésion) a pris fin

Ne surtout pas supprimer la relation.

  1. Depuis la page wikidata de l’établissement :
    • Trouver et modifier la déclaration de la relation ;
    • Ajouter qualitatif/date de fin.

Un établissement n’existe plus

Ne surtout pas supprimer l’élément wikidata

  1. Depuis la page wikidata de l’établissement :
    • Ajouter une déclaration/date de dissolution ;
  2. Si l’établissement a été fusionné dans un autre, qui existait auparavant :
    • Ajouter une déclaration/fusionné dans et renseigner l’établissement fusion ;
      • Ajouter un qualitatif/date.
  3. Si l’établissement a été fusionné avec plusieurs autres pour en créer un nouveau :
    • Vérifier que le nouvel établissement existe dans wikidata, sinon le créer (voir Ajouter élément) ;
    • Dans l’ancien établissement, Ajouter une déclaration/remplacé par
      • Renseigner le nouvel établissement ;
      • Ajouter une déclaration/date ;
    • Dans le nouvel établissement, Ajouter une déclaration/remplace
      • Renseigner l’ancien établissement ;
      • Ajouter une déclaration/date.
    • Recommencer pour tous les établissements fusionnés.

Un établissement a changé de statut

Ne surtout pas changer la nature de l’élément wikidata

  1. Créer un nouvel élément pour l’établissement (voir Ajouter élément) ;
    • duplicate item tool peut être utile pour copier l’élément qui a changé de statut ;
    • Ajouter une déclaration/date de fondation ;
    • Ajouter une déclaration/remplace et renseigner l’ancien élément.
      • Ajouter un qualitatif/date
  2. Si tout l’établissement a changé de statut, depuis la page wikidata de l’ancien établissement :
    • Ajouter une déclaration/date de dissolution ;
    • Ajouter une déclaration/remplacé par et renseigner le nouvel élément ;
      • Ajouter un qualitatif/date
  3. Si une partie de l’établissement s’est détachée d’un établissement qui continue d’exister, depuis la page wikidata du nouvel établissement :
    • Ajouter une déclaration/séparé de et renseigner l’ancien élément ;
      • Ajouter un qualitatif/date

Tutorial pour la librairie R

WikidataESR est une librairie R s’appuyant sur wikidataR pour récupérer les données de l’ESR dans wikidata et produire des graphiques.

Installation

WikidataESR peut s’installer directement depuis GitHub avec devtools :

install.packages("devtools")
library(devtools)

install_github("cpesr/wikidataESR")

Les bases de WikidataESR

Récupérer les données

Pour récupérer les données, vous devez disposer d’un identifiant wikidata racine, et savoir quelles propriétés vous souhaitez explorer.

L’exploration se fait avec la fonction wdesr_get_graph.

Par exemple, il est possible d’explorer les établissements du Site Alsace :

library(wikidataESR)
df.alsace <- wdesr_get_graph("Q61716176", c('composante','associé'), 1)
## [1] "Loading:  Q61716176"
## [1] "Loading:  Q280183"
## [1] "Loading:  Q157575"
## [1] "Loading:  Q521036"

## Warning in wdesr_get_item_status(item): The instance of wikidata item Q521036 is not recommended: école d'ingé.
##   Reason is: Statut trop imprécis.
##   Please check https://www.wikidata.org/wiki/Q521036
##   using the guideline at https://github.com/cpesr

## [1] "Loading:  Q630461"
## [1] "Loading:  Q3578190"

## Warning in wdesr_get_item_status(item): The instance of wikidata item Q3578190 is not recommended: École nationale supérieure.
##   Reason is: Confusion avec les ENS.
##   Please check https://www.wikidata.org/wiki/Q3578190
##   using the guideline at https://github.com/cpesr

## [1] "Loading:  Q21041502"

Pour faciliter les contributions, la fonction déclenche des warning pour chaque problème potentiel lié aux données saisie dans wikidata.

Elle retourne un objet contenant vertices et edges, qui représentent les établissements et leurs relations.

| id | label | alias | statut | niveau | |:----------|:--------------------------------------------------------|:----------------------------|:---------------------------|-------:| | Q61716176 | site universitaire alsacien | site universitaire alsacien | Regroupement universitaire | 2 | | Q280183 | université de Haute-Alsace | UHA | Université (EPSCP) | 3 | | Q157575 | université de Strasbourg | Unistra | Université (EPSCP) | 3 | | Q521036 | Institut national des sciences appliquées de Strasbourg | INSA Strasbourg | école d’ingé | 4 | | Q630461 | bibliothèque nationale et universitaire | BNU | bibliothèque nationale | 4 | | Q3578190 | École nationale supérieure d’architecture de Strasbourg | ENSAS | École nationale supérieure | 4 | | Q21041502 | Haute école des arts du Rhin | HEAR | école d’art | 4 |

| from | to | type | date | depth | distance | |:----------|:----------|:--------|:-----|------:|---------:| | Q61716176 | Q280183 | associé | NA | 1 | -1 | | Q61716176 | Q157575 | associé | NA | 1 | -1 | | Q61716176 | Q521036 | associé | NA | 1 | -2 | | Q61716176 | Q630461 | associé | NA | 1 | -2 | | Q61716176 | Q3578190 | associé | NA | 1 | -2 | | Q61716176 | Q21041502 | associé | NA | 1 | -2 |

Tracer des représentations

Depuis le graphes retourné par wdesr_get_graph, il est possible de tracer directement en utilisant la librairie network.

library(network)
net <- network(df.alsace$edges,
               matrix.type="edgelist", ignore.eval=FALSE,
               directed = TRUE)

plot(net)

Cependant, pour faciliter les choses, wikidataESR propose une fonction adaptatée : wdesr_ggplot_graph

wdesr_ggplot_graph(df.alsace)

Deux en un

Pour facilier les choses, la fonction wdesr_load_and_plot permet de tout faire d’un coup :

wdesr_load_and_plot("Q61716176", c('composante','associé'), 1)

On peut observer que les deux images ne sont pas identiques : le processus de traçage des graphes est aléatoire. Il est ainsi parfois utile de tracer plusieurs fois un graphiques pour arriver à un résultat satisfaisant.

Gestion du cache

Afin de ne pas avoir à retélécharger systématiquement les données, wikidataESR utilise un cache local. Il est possible de sauvegarder ce cache pour une utilisation future avec wdesr_save_cache().

Il suffira ensuite de recharger le cache à la prochaine session pour ne pas retélécharger les données avec wdesr_load_cache(). Attention : en cas de modification des données sur wikidata, les données du cache local peuvent être périmées.

Il est enfin possible d’accéder directement au cache avec wdesr_get_cache()

Pour aller plus loin

Plus de profondeur

Il est souvent utile d’aller plus en profondeur pour explorer plus de relations. Cela se fait en modifiant l’argument depth :

wdesr_load_and_plot("Q61716176", c('composante','associé'), depth = 3)

Plus de contrôle

Pour contrôler les graphiques, plusieurs paramètres sont disponibles :

Taille des noeuds

wdesr_load_and_plot("Q61716176",c('composante','associé'), 3,
                    node_size = c(2,5), label_sizes = c(3,5), 
                    arrow_gap = 0.0,
                    node_label = "alias", node_type = "text",
                    edge_label = FALSE)

Taille des textes

wdesr_load_and_plot("Q61716176",c('composante','associé'), 3,
                    node_size = c(2,8), label_sizes = c(1,10), 
                    arrow_gap = 0.0,
                    node_label = "alias", node_type = "text",
                    edge_label = FALSE)

Taille des textes

wdesr_load_and_plot("Q61716176",c('composante','associé'), 3,
                    node_size = c(2,8), label_sizes = c(3,5), 
                    arrow_gap = 0.0,
                    node_label = "alias", node_type = "text",
                    edge_label = FALSE)

Type des textes

wdesr_load_and_plot("Q61716176",c('composante','associé'), 3,
                    node_size = 3, label_sizes = c(3,5), 
                    arrow_gap = 0.0,
                    node_label = "alias_date", node_type = "text",
                    edge_label = TRUE)

Type des noeuds

wdesr_load_and_plot("Q61716176",c('composante','associé'), 3,
                    node_size = 3, label_sizes = c(1,3), 
                    arrow_gap = 0.0,
                    node_label = "alias_date", node_type = "label_repel",
                    edge_label = FALSE)



cpesr/wikidataESR documentation built on Sept. 14, 2024, 5:51 a.m.