-
Notifications
You must be signed in to change notification settings - Fork 13
Atualização manual das tabelas do Caged
Arthur Gusmão edited this page Jun 12, 2024
·
2 revisions
1. Verificar calendário de divulgação dos novos dados
cd <path_to_queries_basedosdados_dev>
nano models/br_me_caged/code/crawler_caged.py
4. Alterar as constants YEARMONTH
e TABLE
para os valores de AAAAMM e nome da tabela que deseja subir (i.e microdados_movimentacao
, microdados_movimentacao_excluida
ou microdados_fora_prazo
):
if __name__ == '__main__':
YEARMONTH = 'YYYYMM'
TABLE = 'table_name'
crawler_novo_caged_ftp(yearmonth=YEARMONTH)
build_partitions(table_id=TABLE, yearmonth=YEARMONTH)
poetry install --with=caged
poetry shell && python3 <path_to_crawler_caged.py>
import basedosdados as bd
tb = bd.Table(
dataset_id='br_me_caged',
table_id = 'microdados_movimentacao'
)
tb.create(path = r"/tmp/caged/microdados_movimentacao/output/",
if_storage_data_exists = 'replace',
if_table_exists = 'replace',
source_format="csv")
8. Executar o flow BD Utils: Transfere arquivos do bucket basedosdados-dev para basedosdados
com os seguintes parâmetros:
{
"dataset_id": "br_me_caged",
"dbt_alias": false,
"folders": ["ano=2024"],
"materialization_mode": "prod",
"materialize_after_dump": true,
"table_id": "<table_id>"
}