Mode d'emploi du package RNADiff pour l'analyse différentielle : comparaison de 2 conditions avec DESeq2

Version de RNADiff : r packageVersion("RNADiff")

Auteurs : Marie-Agnès Dillies et Hugo Varet (Plate-forme Transcriptome et Epigénome - Institut Pasteur)

1 Introduction

Ce document est le mode d'emploi du package RNADiff développé à la plate-forme pour l'analyse différentielle de données RNA-seq en routine. Seuls les projets qui consistent à comparer deux conditions biologiques (répliquées ou non) sont concernés par ce documents. Bien que le terme ne soit pas approprié, nous appellerons pipeline cette suite de commandes R. Ce pipeline permet de réaliser l'analyse statistique des données et de produire un rapport et des slides de présentation au format PDF.

L'analyse différentielle des données et la génération des documents de résultats se font en deux temps :

Dans un premier temps, on met au point l'analyse statistique à l'aide d'un script R. Cette première étape permet de vérifier la pertinence des paramètres par défaut, et de les ajuster si nécessaire. Une fois ces paramètres fixés et l'analyse réalisée, les paramètres sont automatiquement sauvegardés par R et récupérés par knitr pour la génération du rapport et des slides.

Dans ce document, la section 2 décrit l'ensemble des logiciels et fichiers nécessaires à la réalisation complète de l'analyse. La section suivante détaille la procédure de l'analyse statistique et la section 4 décrit la production du rapport et des slides).

2 De quoi a-t-on besoin pour réaliser l'analyse ?

Les logiciels

Le processus complet nécessite que soient installés sur votre ordinateur les logiciels suivants :

Le script R d'analyse

Le seul script à modifier par l'utilisateur se nomme script_DESeq2_1factor.R. Il contient le code nécessaire à l'analyse statistique, la production des figures, la sauvegarde des résultats et la génération du rapport et des slides au format LaTeX. Les fichiers dits "systèmes" sont inclus dans le package RNADiff :

Les fichiers de données

La réalisation de l'analyse suppose le calcul préalable des comptages bruts par gène (ou par transcrit). RNADiff autorise l'importation de fichiers de comptages générés par HTSeq-count ou par featureCounts. Si le comptage a été réalisé par HTSeq-count, les fichiers de comptage sont au format suivant :

Si le comptage a été réalisé par featureCounts, les fichiers de comptage sont au format suivant :

Ces fichiers de comptages seront rassemblés dans un dossier appelé raw par défaut. Un autre fichier texte (appelé target.txt par défaut) est utilisé pour décrire le plan de l'expérience, c'est-à-dire le nom de la condition biologique associée à chaque échantillon. Ce fichier au format texte tabulé contient au moins trois colonnes (avec en-têtes) et doit se terminer par un retour à la ligne après la dernière ligne (dans le cas contraire, un message d'avertissement apparaîtra à l'exécution du script R) :

Voici un exemple du contenu de ce type de fichier :

| label | files | group | |:------|:-----------------------------|:------| | s1c1 | count_file_sample1_cond1.txt | cond1 | | s2c1 | count_file_sample2_cond1.txt | cond1 | | s1c2 | count_file_sample1_cond2.txt | cond2 | | s2c2 | count_file_sample2_cond2.txt | cond2 |

Les fichiers optionnels

geneLengthFile

L'utilisateur peut souhaiter normaliser ses données par la longueur des gènes, afin de comparer l'expression de différents gènes au sein d'un échantillon donné. En aucun cas cette normalisation ne sera utilisée pour l'analyse différentielle. Elle servira seulement à produire une table de données normalisées par gène et par condition. Cette procédure est décrite plus en détail dans le rapport d'analyse.

L'information sur la longueur des gènes sera fournie sous forme d'un fichier texte tabulé à deux colonnes, l'une contenant l'identifiant du gène (identique à l'identifiant utilisé dans les tableaux de comptages bruts), l'autre la longueur du gène en nucléotides. Le nom de ce fichier sera spécifié lors du paramétrage du script d'analyse.

Informations sur les gènes

Plutôt que d'avoir seulement les identifiants des gènes dans les tableaux de résultats, il est possible d'ajouter des informations supplémentaires contenues un fichier externe. Celui-ci devra impérativement être au format texte tabulé et la première colonne devra contenir l'identifiant unique de chaque gène tel qu'écrit dans les fichiers de comptages bruts. Les colonnes suivantes pourront contenir, par exemple, le nom du gène, le numéro d'accession, etc.

Architecture conseillée

Une architecture conseillée pour l'ensemble de ces fichiers et dossiers pourrait être celle décrite dans la figure ci-dessous. Elle permet de séparer les fichiers donnés en entrée de l'analyse et les fichiers de résultats spécifiques d'une version. Pour chaque projet, la séparation entre fichier bruts et fichiers de résultats permet également de clarifier l'organisation et d'accéder plus facilement aux informations recherchées.

Organisation des fichiers conseillée pour l'exécution du pipeline d'analyse.

Une fois que l'ensemble des fichiers nécessaires a été rassemblé et organisé, l'analyse peut commencer.

3 Etape 1 : l'analyse statistique

Créez tout d'abord un dossier dédié à l'analyse que vous allez réaliser. Supposons que le projet à analyser soit le projet SLX080. Pour simplifier, appelons ce dossier SLX080. L'analyse statistique proprement dite est réalisée à l'aide du fichier script_DESeq2_1factor.r. Pour la première version d'analyse, commencez par copier ce fichier dans le répertoire version1 du projet, puis renommez-le, par exemple avec le nom du projet suivi du nom de la version de l'analyse (même si vous prévoyez plusieurs versions). Dans la suite, nous supposerons que ce script s'appelle maintenant script-version1.R et se trouve dans le répertoire version1 du dossier SLX080.

L'analyse se déroule en deux étapes : l'initialisation des paramètres puis l'exécution du script. Double-cliquez sur le fichier script-version1.R (ou faites un clic droit sur le fichier, ouvrir avec..., R). Le script s'ouvre dans un éditeur de texte, et une fenêtre de commande R apparaît. Placez-vous dans l'éditeur de texte pour modifier le script.

Paramétrage de l'analyse

Les paramètres à configurer se trouvent au début du script :

Ces paramètres seront automatiquement repris par les scripts de production du rapport et des slides, sans intervention de votre part. Pour permettre la génération du rapport et des slides, le script doit avoir été exécuté au moins une fois avec le paramètre outfile=TRUE (valeur par défaut). Lorsque tous les paramètres ont été ajustés, n'oubliez pas de sauvegarder le script pour enregistrer les modifications.

Exécution du script

Pour exécuter le script, deux solutions sont possibles :

Les résultats suivants apparaissent également au fur et à mesure de l'exécution :

Quelques messages d'avertissement peuvent également apparaître à la fin de l'analyse, en particulier si certains comptages nuls subsistent dans le tableau de données.

Fichiers générés lors de l'exécution du script

Pendant l'exécution, R génère les fichiers suivants dans le dossier figures si le paramètre outfile vaut TRUE :

Les tables de résultats (avec fold-changes, p-valeurs, etc.) au format texte tabulé sont créées dans le dossier tables :

Si les longueurs des gènes ont été fournies, alors le fichier SLX080-version1.LengthNorm.xls est également créé. Celui-ci contient les données normalisées par la longueur des gènes. Enfin, un fichier au format .RData contenant les paramètres d'analyse et les résultats est sauvegardé. Avec ces fichiers maintenant disponibles vous pouvez générer le rapport et les slides

4 Etape 2 : le rapport et les slides

Le rapport est généré automatiquement à partir du script R et s'appelle report-SLX080-version1.pdf. En revanche, les slides doivent être personnalisées via le fichier slides-SLX080-version1.tex (commentaires de certaines figures ou conclusion de l'analyse). Une fois les slides modifiées, il suffit de compiler avec LaTeX. Pour cela :



biomics-pasteur-fr/RNADiff documentation built on Aug. 27, 2020, 12:44 a.m.