Contribuez à la Mission Politique publique de la donnée
Constats, freins et solutions
Des données organisées et structurées
L'open data est une réalité pour de nombreux acteurs. Malheureusement, il n'y a pas de coordination sur les formats de données, les référentiels et les règles de gestion.
Cette hétérogénéité des données rend leur exploitation complexe. Ainsi, l'exploitation de données issues de différentes sources relève parfois du défi.
Un guide reprenant les formats de données préconisés, les référentiels à privilégier, les macro règles de gestion associé à un label qualité des données serait une solution.
Liste des soutiens
et 18 autres personnes
(voir plus)
(voir moins)
Signaler un contenu inapproprié
Ce contenu est-il inapproprié ?
10 commentaires
Les données ouvertes ne sont pas différentes d'autres données : il faut autant que faire se peut les adosser aux standards existants.
Le CNIG, entre autres institutions, a normalisé un certain nombre de choses avec un bon niveau de rigueur.
Ce n'est pas le cas d'autres acteurs qui, même si ils en ont la volonté, ne savent pas véritablement ce que faire standard veut dire.
Avoir un inventaire des standards existants serait aussi utile que d'avoir un inventaire des données disponibles
Conversation avec DALBIN
N'y a-t-il pas déjà sur le site modernisation.gouv.fr des éléments de réponse à votre question ? http://references.modernisation.gouv.fr/referentiels
Malheureusement, aucun de ces référentiels ne vise à réduire l'hétérogénéité dans l'organisation et la structuration des données.
Seul le RGI aborde l'aspect formats de fichiers, mais ne rentre pas du tout dans leur contenu.
Pour que des données soient plus facilement réutilisables (par tous y compris entre administrations), il faut s'accorder sur quelques grand principes comme l'utilisation systématiques d'identifiants uniques lorsqu'ils existent dans une des bases du service public de la donnée.
Exemple: trouver encore aujourd'hui des fichiers comportant "code postal + commune" et pas le code INSEE de la commune est un sérieux problème vu que le nom des communes n'est de plus que rarement conforme à celui du COG.
Je vous invite à consulter schema.data.gouv.fr, initiative qui vise à standardiser un certain nombre de jeux de données couramment publiés par différents acteurs en France, ainsi que le guide écrit à ce sujet :
https://schema.data.gouv.fr/
https://guides.etalab.gouv.fr/producteurs-schemas/
Conversation avec Maryse Nougaillac
Il existe une plateforme de validation de jeux de données produits par les collectivités https://validata.fr/doku.php?id=start
Coordonné par OpenDataFrance, Validata est un projet collaboratif et ouvert.
Peut être un début de réponse à votre questionnement ?
Validata est une "brique vérificative" de la conformité des données au schéma défini dans le socle commun des données locales (SCDL). Toujours une initiative opendataFrance. Son but, homogénéiser la publication en open data de données essentielles produites par des acteurs territoriaux : base adresse, délibérations, subventions, marchés publics...
https://scdl.opendatafrance.net/docs/
J'ajoute sur les formats le référentiel général d'interopérabilité... publié par la DINUM
https://fr.wikipedia.org/wiki/R%C3%A9f%C3%A9rentiel_g%C3%A9n%C3%A9ral_d%27interop%C3%A9rabilit%C3%A9
N'oublions pas aussi les données de référence, avec les identifiants pivot à utiliser dans les autres jeux de données (cas typique: le code INSEE pour identifier une commune, le SIREN/SIRET pour identifier une entreprise ou un établissement, etc). Ceci permet de lier les jeux de données entre eux, ce qui apporte en général encore plus de valeur à l'usage.
Dans le cadre de l'oncologie, l'INCa soutient le projet OSIRIS (projet national sur le partage des données). Je vous laisse regarder ce lien pour plus d'informations
https://www.e-cancer.fr/Professionnels-de-la-recherche/Recherche-translationnelle/Les-SIRIC/OSIRIS-projet-national-sur-le-partage-des-donnees
Il y a déjà des règles effectivement sur https://guides.etalab.gouv.fr/producteurs-schemas/phase-concertation/#grands-principes notamment sur les dates ou coordonnées géographiques ainsi que sur l'utilisation de codes INSEE ou SIREN.
Par contre, il serait aussi intéressant de sensibiliser les producteurs aux pertinences des données de localisation ou il est très fréquent de voir des coordonnées géographiques avec plus de 15 décimales alors que 5 décimales sont largement suffisantes (correspondant à une précision d'environ 1m en France métropolitaine) dans la plupart des cas.
Au delà des guides et recos, il serait pertinent d'investir sur des outils automatisant cette vérification.
Concernant le label qualité sur les données il serait possible de s'inspirer de ce qui a été fait du côté des données liées.
https://5stardata.info/en/
Chargement des commentaires ...