Thesaurus: A Reference Class pour extraire le contenu du thesaurus des...

Description Details Value Fields

Description

Cette classe est utilisée pour transformer le contenu textuel (plain text obtenu par l'outil Tika à partir du PDF) du thésaurus en contenu structuré (dataframe R).

Details

Les fonctions servent à transformer le contenu du thesaurus d'un format textuel à un format structuré. Elles n'ont pas d'utilité par la suite

Value

Permet de créer des instances de cette classe contenant diverses informations sur une mise à jour-thésaurus

Fields

thesaurus

: le contenu du thesaurus en texte brut

lignes_entrees

: numéros des lignes où on trouvent une entréee

regex_exclus

: si ces lignes commencent par ces regex, ce ne sont pas des entrées (ECG...)

df

: dataframe contenant la liste des protagoniste A - B du thesaurus avec la description, le mécanisme et le niveau

df_decompose

: pareil que df mais les familles sont remplacées par les molécules qu'elles contiennent

manuellement

: subset de df où il existe plusieurs niveaux d'interaction selon le contexte. L'idée est de traiter manuellement cette partie pour séparer les niveaux puis l'intégrer à df.

mol_famille

: dataframe contenant les molécules et leurs familles.

molecules_seules

: dataframe contenant la liste des molécules seules.

mol

: vecteur contenant la liste des molécules du thésaurus


scossin/IMthesaurusANSM documentation built on July 9, 2021, 9:11 a.m.