Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Metadados de qualidade #625

Open
rdahis opened this issue Apr 13, 2023 · 0 comments
Open

Metadados de qualidade #625

rdahis opened this issue Apr 13, 2023 · 0 comments
Assignees
Labels
enhancement New feature or request

Comments

@rdahis
Copy link
Member

rdahis commented Apr 13, 2023

Contexto

Hoje acompanhamentos qualidade de (meta)dados via um painel e pipelines. Essas pipelines mantém dados sobre qualidade, com indicadores inbutidos.

Issues antigas

Proposta

A médio prazo, o que precisamos é ter modelos/metadados de qualidade, atualização, documentação, etc. Parte desses metadados serão atualizados automaticamente (via pipelines) e parte será manual via formulário no site. Esses metadados alimentarão nosso painel de acompanhamento.

Construiremos esses modelos na API de Django.

Cada indicador terá uma "data de última atualização". Esse campo será preenchido automaticamente na última atualização, e naturalmente será mais recente para campos atualizados via pipelines.

Esses metadados alimentarão nosso ambiente de revisão de dados e metadados da nova plataforma. Precisaremos desenvolver um ambiente pra isso, com formulário próprio, comentários, revisão, etc.

Indicadores podem usar ferramentas como:

Material sobre "data lineage" @crislanealves

Exemplos de indicadores de metadados

  • dataset
    • tem ao menos 1 tema
    • tem ao menos 1 etiqueta
  • table
    • tabela está materializada? (automático)
    • número de linhas consistente com a fonte original? (manual)
    • está atualizada? (automático)
  • column
    • tipo correto? (manual)
    • tem ao menos uma linha não-nula? (automático)
    • informações iguais no BigQuery e no site (automático)
    • ligação nos diretórios (manual)

Exemplos de indicadores de dados

Nossos saudosos data checks: https://github.com/basedosdados/mais/blob/master/.github/workflows/data-check/checks.yaml

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

6 participants