-
Notifications
You must be signed in to change notification settings - Fork 14
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Eviter de créer un doublon lors du moissonnage si le remote ID est une URI et existe déjà #1587
Comments
Juste pour être sûr de bien comprendre, si on valide que Est-ce qu'on veut :
|
Je profite de ce ticket pour mentionner la suggestion de Géo-IDE d'ignorer le domaine pour la détection de doublon, et donc ne se baser que sur la partie ID de l'URI. Géo-IDE a récemment changé de base URL pour ses identifiants et on se retrouve régulièrement avec des fiches doublonnées à mesure que les anciens identifiants sont remplacés. Je ne sais pas exactement comment fonctionne le remplacement mais ça a l'air d'être progressif (lorsqu'une fiche est mise à jour ?), donc on va encore avoir ce genre de problème un certain temps. Plus généralement, si en théorie l'URI est sensée être persistente, en pratique ça n'est pas garanti sans l'appui d'un véritable système de registre (qui n'existe pas à l'échelle FR). La plupart des URI qui nous concernent étant basées sur l'URL de catalogue, la persistence n'est pas garantie. On risque par exemple d'avoir le problème sur DatARA l'an prochain, qui il me semble va changer de nom de domaine. Je doute qu'il y ait un plan pour maintenir des redirections ad vitam, et même si c'était le cas, il faudrait savoir les gérer dans le dédoublonnage. S'il est souhaitable dans les cas ci-dessus de considérer que seule la partie ID d'une URI fait foi, j'ai du mal à voir comment ça pourrait être traité de manière générique sur data.gouv : 1) il faudrait pouvoir extraire de manière fiable l'ID d'une URI arbitraire, et 2) il faudrait être certain de l'unicité de l'ID extraite. Bref, pour info. |
Fixes [#1587](datagouv/data.gouv.fr#1587) Signed-off-by: Mathieu Agopian <[email protected]>
J'ai du mal à voir une solution magique pour gérer la non stabilité des identifiants des plateformes. Je pense qu'on pourrait apporter des outils pour pouvoir faire leur appariement quand c'est le cas, mais j'ai moins de foi dans une solution magique. |
Ça serait propre ! Reste à savoir si les catalogues source seraient capables d'exposer une liste d'identifiants, ou s'il faudrait une intervention explicite côté data.gouv. Si c'est une evol envisageable, je peux me renseigner côté Géo-IDE et Geonetwork. |
Voir la logique de récupération OU création d'un dataset à partir du remote id : https://github.com/opendatateam/udata/blob/bfeae1b6a1d0d33c29485a2feae012db69eec38f/udata/harvest/backends/base.py#L387.
Aujourd'hui, un remote_id déjà existant ne suffit pas à raccrocher à un JDD existant.
Il faut aussi que le domaine ou le point de moissonnage soit le même.
Si l'identifiant remote_id est une URI, il est donc supposé unique au-delà de sa propre plateforme.
On devrait alors raccrocher le jeu de données à l'existant.
Exemple de duplicats alors que le remote_id est le même, mais les plateformes sont distinctes :
The text was updated successfully, but these errors were encountered: