Projet de traitement et de publication de meilleures données sur les marchés publics attribués en France. Ce projet prend sa source dans la complexité de la publication des données faite par le Ministère des Finances :
- code source de l'agrégation des données fermé
- documentation incomplète et éparpillée
- schéma de données DECP 2 complexe à utiliser
Ce projet se veut collaboratif et à l'écoute des besoins des usagers potentiels : entreprises, acteurs publics, journalistes, chercheurs et chercheuses, citoyens et citoyennes.
Pour me contacter vous pouvez ouvrir un "issue" sur Github ou me contacter par email [email protected].
Les données produites sont les mêmes données que celles publiées par le Ministère des Finances sur data.economie.gouv.fr. J'ai choisi de prendre ces données comme source et non les DECP au format réglementaire JSON car les premières ont été nettoyées et améliorées (code) par le Ministère, ce qui me fait moins de travail.
Elles sont mises à dispositions aux formats CSV, Parquet et SQLite.
Vous pouvez...
- les télécharger sur data.gouv.fr (vous trouverez aussi plus d'informations sur ces données)
- les visualiséer, les filtrer et télécharger sur decp.info
Je vous recommande d'utiliser un environnement virtuel Python pour isoler l'installation des dépendances :
virtualenv .venv
Activez l'environnement virtuel :
source .venv/bin/activate
Installez les dépendances :
pip install .
Lancez Jupyter notebook (je n'ai pas trop testé, j'utilise l'intégration dans VS Code) :
jupyter notebook
Ordre d'exécution et description des notebooks :
- marchés : pour récupérer les données de base et les nettoyer
- sirene_acheteurs : pour récupérer les noms des acheteurs depuis la base SIRENE
- sirene_titulaires : pour récupérer les données des titulaires depuis la base SIRENE
- publish : création du datapackage, de la base de données SQLite, et publication sur data.gouv.fr