Thesaurus: A Reference Class pour extraire le contenu du thesaurus des...
In scossin/IMthesaurusANSM: Thesaurus des Interactions Medicamenteuses de l ANSM

Cette classe est utilisée pour transformer le contenu textuel (plain text obtenu par l'outil Tika à partir du PDF) du thésaurus en contenu structuré (dataframe R).

Les fonctions servent à transformer le contenu du thesaurus d'un format textuel à un format structuré. Elles n'ont pas d'utilité par la suite

Permet de créer des instances de cette classe contenant diverses informations sur une mise à jour-thésaurus

thesaurus: : le contenu du thesaurus en texte brut
lignes_entrees: : numéros des lignes où on trouvent une entréee
regex_exclus: : si ces lignes commencent par ces regex, ce ne sont pas des entrées (ECG...)
df: : dataframe contenant la liste des protagoniste A - B du thesaurus avec la description, le mécanisme et le niveau
df_decompose: : pareil que df mais les familles sont remplacées par les molécules qu'elles contiennent
manuellement: : subset de df où il existe plusieurs niveaux d'interaction selon le contexte. L'idée est de traiter manuellement cette partie pour séparer les niveaux puis l'intégrer à df.
mol_famille: : dataframe contenant les molécules et leurs familles.
molecules_seules: : dataframe contenant la liste des molécules seules.
mol: : vecteur contenant la liste des molécules du thésaurus