Bonnes pratiques
Cette page n’est plus mise à jour. Rendez-vous ici : https://gtso.couperin.org/gtdonnees/definitions-et-bonnes-pratiques/
Préparer un DMP
Le plan de gestion des données, ou data management plan (DMP), est désormais requis par la plupart des agences de financement. Il est à fournir à trois moments du projet, six mois après la contractualisation pour présenter les prévisions en matière de données, à mi-projet pour effectuer un bilan d’étape et en fin de projet afin d’expliciter ce qui a été effectivement réalisé. Ce document décrit la gestion des données du projet, depuis leur production ou leur collecte, jusqu’à leur archivage pérenne et, éventuellement, leur partage.
Un exemple : depuis 2019, l’ANR demande des DMP pour les projets financés.
Dès le démarrage du projet, il est nécessaire de mettre en place de bonnes pratiques de gestion qui permettront un gain de temps précieux pour la rédaction du DMP et qui faciliteront les phases d’archivage et de partage en fin de projet.
Documenter la collecte
Documenter la collecte des données au fil du temps, en tenant à jour des tableaux de bord de ce qui est produit, permet de rédiger plus facilement le DMP. Il existe plusieurs guides, produits par des laboratoires, qui peuvent être adaptés.
Un exemple : Arnould, Pierre-Yves, et Marie-Christine Jacquemot-Perbal. 2017. « Guide de bonnes pratiques: gestion et valorisation des données de recherche ». OTELO. https://ordar.otelo.univ-lorraine.fr/record?id=10.24396/ORDAR-1
Attribuer un DOI au jeu de données
L’attribution d’un identifiant pérenne à chaque jeu de données produit peut être demandé dans le cadre d’un projet financé. Lorsque les données sont déposées dans un entrepôt de données, l’identifiant pérenne, généralement un DOI, est automatiquement généré dans la plupart des cas.
Il est également possible d’obtenir un DOI pour des données qui restent hébergées au sein de l’établissement. L’Inist a mis en place un service, PID OPIDoR, qui permet de demander la création de DOI. L’utilisateur s’engage à maintenir une “landing page”, avec une URL pérenne où pointera le DOI, et à fournir des métadonnées précises et normalisées.
Métadonnées et vocabulaires
Pour être facilement retrouvés, les jeux de données produits doivent être décrits au moyen de métadonnées et de vocabulaires normalisés. Toute personne qui a déposé dans l’archive ouverte HAL a déjà produit des métadonnées normalisées : le formulaire de HAL est en Dublin Core, un des standards de métadonnées les plus répandus. Si les données sont déposées dans un entrepôt, la question des métadonnées est transparente pour l’utilisateur. Il n’a pas à se préoccuper du standard utilisé, mais doit simplement renseigner les champs proposés.
Dans les autres cas, il est possible de générer un fichier de métadonnées simples en xml via un générateur, le DataCite Metadata Generator – Kernel 4.0 ». L’utilisateur peut également consulter le RDA metadata directory.
Partager les données
Une fois correctement documentés, les jeux de données peuvent être déposés sur un entrepôt de données. Le dépôt sur un entrepôt peut se faire selon différentes modalités : en fonction du type de données, il est possible de les mettre sous embargo ou de les placer sous accès restreint.
Le partage des données n’est pas encore obligatoire pour les projets européens, il s’agit d’un pilote dont il est possible de sortir à tout moment, ni pour les projets ANR. Il est toutefois fortement recommandé par les financeurs.
Le programme de financement Horizon Europe, qui débutera en 2021, devrait reposer sur le principe d’une ouverture des données par défaut, sauf régimes juridiques spécifiques.
Valoriser les données de la recherche
Les données de la recherche peuvent être valorisée dans des articles, que l’on appelle des data papers, qui peuvent être publiés dans des revues classiques ou dans des data journals, à comité de lecture. Un data paper comporte une partie descriptive et une partie d’accès aux données. La première décrit un jeu de données spécifique (ou un ensemble de jeux de données) à l’aide de métadonnées, tandis que la deuxième donne accès aux données qui sont alors publiées dans l’article ou à un lien, si les données ont été déposées dans un entrepôt. Il permet ainsi de valoriser un jeu de données en le rendant plus aisément accessible et citable.
Pour en savoir plus :
Quelles obligations ?
Les enseignants-chercheurs conservent la propriété intellectuelle des œuvres qu’ils produisent. Cependant, les données de la recherche ne sont pas considérées comme des œuvres, qui sont caractérisées par leur originalité. Les photographies, les textes sont considérés comme des œuvres. En revanche, un tableau de mesures ne l’est pas.
Dès lors que les données sont produites dans le cadre d’une activité de recherche publique, elles sont considérées comme des “documents administratifs” et sont donc soumises à l’obligation d’open data.
L’article 30 de la loi pour une République numérique est clair :
“Dès lors que les données issues d’une activité de recherche financée au moins pour moitié par des dotations de l’Etat, des collectivités territoriales, des établissements publics, des subventions d’agences de financement nationales ou par des fonds de l’Union européenne ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu’elles ont été rendues publiques par le chercheur, l’établissement ou l’organisme de recherche, leur réutilisation est libre.”
On en déduit que la réutilisation de ces données est libre et sans condition. Toutefois, certaines données peuvent être protégées par un droit spécifique, tel que la protection de la vie personnelle, le secret défense…
Pour citer Lionel Maurel, “des données de la recherche publiées par un chercheur ou un établissement seront donc bien librement réutilisables, sous réserve de respecter la législation sur les données personnelles ou le droit à l’image, ainsi que le droit d’auteur des tiers”.