knitr::opts_chunk$set( collapse = TRUE, comment = "#>" )
J.P. Ioannidis : problème d'expérimentations => résultats faux
Fraude dans la recherche: comment la détecter ? Comité d'enquête => perte de crédibilité dans la recherche et la science.
Mauvaise science délétère: soutient des politiques néfastes, affecte la vie des gens, frontière brouillé entre science et excroquerie, favorise les théories du complot
Ces problèmes ont toujours existés. Beaucoup plus de publications mais aussi beaucoup plus de rétractations.
Difficultés à reproduire des études passées, tout domaine confondu.
Plusieurs causes:
Karl Popper (1934): notion de falsifiability et de crucial experiment, les bonnes expérimentations permettent de discriminer les bonnes des mauvaises théories. Les occurrences uniques non reproductibles n'apportent rien à la science : problème c'est un idéal pas un norme: évènements extrêmenent rares en astronomie, études comportementales
Universalité : Reproductibilité agit comme un moyen de contrôle, d'évaluer la robustesse.
Incrément : la science se construit aussi sur le travail de tous, y compris les erreurs. La reproductibilité permet de réaliser un contrôle qualité.
Les pratiques scientifiques ont évalos avec l'arrivée des ordinateurs - Ben Marwirk (2015)
Geoffrey Chang : erreur de programmation dans un script utilisé dans plusieurs labos. 5 articles retirés. Pousse la communauté à améliorer les pratiques de génie logiciel.
L'utilisation de tableur généère des problèmes: encodage des données, limites des logiciels (pertes de données COVID) Boite noire statistiques problèmes de statbilité numérique et d'environnement logiciel.
Articlespubliés : uniquement résultats positifs mais pas de publication des échecs, des impasses
Recherche reproductible: combler l'écart entre chercheur et lecteur par plus de transparence.
Claerbout & Karrenbach (1992)
reproductibilité expériementale : mêmes données, mêmes protocole : résultat similaire
reproductibilité statistiques : même daonnées, même analyse:
reproductibilité computationnelle : même donnée, même code, même environnement : résutlats exactement identique
Du code doit être lisible par une machine mais aussi un humain.
Outils : Jupyter notebook, Emacs Org-mode, Rstudio
Documenter: - les hypothèses - les expérimentations - l'analyse initial et/ou l'interprétation des expérimentations - organisation: garder trace des choses à faire, faites, à tester, améliorer
Les notebooks ne sont pas la panacée: ils peuvent devenir rapidement confus et n'incitent pas à faire du code propre
Les workflows découpent le code en sous-parties qui exécutent une petite tâche
Workflows: - meilleur vision - code composition et mouvement de données
Outils de workflow - Gnu Make - Galaxy, kepler, Taverna, Peagsus - R target, - léger : drake, swift, snakemake (make en python) - hybrid: SOS-notebook
Challenge reScience : reproduire une étude de plus de 10 ans
Matplotlib: - dépendances Python - dépendances système non visibles
Conteneur: - pour : léger, bonne isolation, facile à utiliser - contre : opaque (image binaire déjà faite), n'est pas prévu pour faire de la reproductibilité (orienté admin-sys)
Attention la pérennité n'est pas garantie ! Cela permet de collaborer mais pas archiver.
Software Carpentry, The Turing Way
Evaluation des artéfacts et badges ACM
Conférences majeures: en mode open review, prix de l'article le plus reproductible, challenge de reproductibilité
Mettre fin au Publish or perish
Publications de reproduction d'articles
Arrêter la prise en compte de l'impact factor
Piliers principaux: - Open Access - Open Data - Open Source - Open Methodology : recherche reproductible (notebooks ouverts, infrastructures scientifiques ouvertes) - Open peer review : éviter les collusions - Open eductional ressources
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.