Définitions
Cette page n’est plus mise à jour. Rendez-vous ici : https://gtso.couperin.org/gtdonnees/definitions-et-bonnes-pratiques/
Données de la recherche
“Enregistrements factuels (chiffres, textes, images et sons) qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. ”« OECD Principles and Guidelines for Access to Research Data from Public Funding », 2007.
Le périmètre des données de la recherche est circonscrit par ce texte à la notion d’éléments probants, nécessaires à la validation du processus de recherche. Cela permet de déterminer ce qui devra ou non être conservé de manière pérenne.
Cette définition exclut de son périmètre les cahiers de laboratoires alors que ceux-ci sont explicitement mentionnés dans les modèles de plans de gestion de données mis à disposition par les financeurs. En effet, les cahiers de laboratoire sont des éléments essentiels pour documenter le contexte de production des données.De surcroît, les cahiers de laboratoire font partie des documents à archiver de manière pérenne, d’après le référentiel des archives de la recherche.
Jeu de données
Un jeu de données est un ensemble de données ayant une cohérence intellectuelle, qu’elle soit dans l’intention ou dans la forme. Collectées et/ou produites, les données qui le composent peuvent être de nature différente (textes, chiffres, images fixes ou animées, sons etc…). Par exemple, une photographie d’un champ, une analyse de sa terre et un relevé hygrométrique de ce champ peuvent constituer un jeu de données cohérent intellectuellement, même s’il est composé d’objets hétérogènes. De même, un ensemble de tests de matériaux peut aussi constituer un jeu de données, car la forme des données est homogène même si elle porte sur des matériaux très différents les uns des autres.
Cycle de vie des données
On trouve de nombreux schémas de cycle de vie des données en ligne, avec quelques nuances. Ils reposent en général sur six grandes catégories : collecter, décrire, traiter, analyser, partager, archiver. Certains modèles de plans de gestion des données reposent sur le cycle de vie de la donnée.
Plan de gestion des données
Un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment seront gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage.
Voir : INIST-CNRS, doranum
Entrepôt de données
Un entrepôt est une base de données qui permet le dépôt de jeux de données de recherche. Une fois déposés, les jeux se voient attribuer un DOI et, la plupart du temps, une licence de réutilisation. Les jeux de données sont accessibles sur l’entrepôt, éventuellement après une période d’embargo, et peuvent être réutilisés.
Data paper
Un data paper est un article décrivant un jeu de données publié, notamment les méthodes de recueil de celles-ci, et il détaille le potentiel de réutilisation du jeu de données. Le DMP peut servir de trame à sa rédaction. Le plus souvent, les data papers sont publiés dans des data journals. Les articles font l’objet d’un peer-reviewing.