Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Feature/1008 raspador sao jose dos basilios ma #1264

Conversation

victorfernandesraton
Copy link
Contributor

@victorfernandesraton victorfernandesraton commented Sep 7, 2024

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

  • O layout não se parece com nenhum caso da lista de layouts padrão
  • É um layout padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão.
  • É um layout padrão e todos os municípios adicionados usam a classe de spider base adequada para o padrão.

Código da(s) spider(s)

  • O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
  • O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
  • O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
  • Explicitar o atributo de classe end_date não se fez necessário.
  • Não utilizo custom_settings em meu raspador.

Testes

  • Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
  • Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
  • Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

Verificações

  • Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

Implementação de extração do município São José dos Basilios

OBS: Foi implementado com base nas correções dessa PR #1030

@victorfernandesraton
Copy link
Contributor Author

Validação de busca com data inicial 2020-01-01 e final 2022-01-01
data_result-2020-2022.csv
output-2020-2021.log

@victorfernandesraton
Copy link
Contributor Author

Validação de buscas do mes de setembro

OBS: Parece que as datas do site não batem com as datas do arquivo, não apaerce nenhum diário no dia 01/09/2024, mas ao acessar o elemento do dia 06/09/2024 chegamos a este pdf que informa em seu início que o mesmo foi publciado no dia 01/09/2024
data_result-2024-09.csv
output-2024-09.log

@victorfernandesraton victorfernandesraton marked this pull request as draft September 7, 2024 23:15
@victorfernandesraton
Copy link
Contributor Author

Validação com todos os dados possivéis
data_result-all.csv
output-all.log

Copy link
Member

@ogecece ogecece left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

@victorfernandesraton obrigado por atualizar esse raspador achei o resultado bem enxuto e objetivo. Tenho alguns pedidos de mudança quanto ao código e algumas opiniões pra você considerar.

Mas também queria ver contigo a melhor maneira de resolver um probleminha com o commit 9e79f27. Como é um commit de merge e está baseado em um commit muito antigo, ele acaba tornando a visualização dos histórico recente de commits bem bagunçada. Você poderia fazer um rebase com a main atualizada pra que a história dessa branch fique linear? Se precisar de algum toque ou se achar melhor eu fazer, não tem problema, só avisar.

@ogecece
Copy link
Member

ogecece commented Sep 11, 2024

OBS: Parece que as datas do site não batem com as datas do arquivo, não apaerce nenhum diário no dia 01/09/2024, mas ao acessar o elemento do dia 06/09/2024 chegamos a este pdf que informa em seu início que o mesmo foi publciado no dia 01/09/2024

@victorfernandesraton o arquivo que apresentou é de 06/09/2024 mesmo. Você tinha analisado outra data e acabou trocando?

O que me chamou a atenção aqui é o diário ser publicado sem atos oficiais. Acho que a gente já teve algum caso assim antes e optou por não raspar pra não prejudicar a experiência de usuário. Mas agora tô pendendo pro lado que a gente deveria republicar. É o que veio da fonte, fazer oq? Mas vai prejudicar a experiência de usuário.

@trevineju tem opiniões?

@victorfernandesraton
Copy link
Contributor Author

@victorfernandesraton obrigado por atualizar esse raspador achei o resultado bem enxuto e objetivo. Tenho alguns pedidos de mudança quanto ao código e algumas opiniões pra você considerar.

Mas também queria ver contigo a melhor maneira de resolver um probleminha com o commit 9e79f27. Como é um commit de merge e está baseado em um commit muito antigo, ele acaba tornando a visualização dos histórico recente de commits bem bagunçada. Você poderia fazer um rebase com a main atualizada pra que a história dessa branch fique linear? Se precisar de algum toque ou se achar melhor eu fazer, não tem problema, só avisar.

Eu consigo reverter sim, fazendo agora...

@victorfernandesraton victorfernandesraton force-pushed the feature/1008-raspador-sao-jose-dos-basilios-ma branch from adc3eaf to 3938162 Compare September 12, 2024 01:23
@trevineju
Copy link
Member

@trevineju tem opiniões?

acho que faz sentido, podemos colocar um aviso na mensagem de retorno de resultados no site do QD avisando desse tipo de situação

@victorfernandesraton
Copy link
Contributor Author

O que me chamou a atenção aqui é o diário ser publicado sem atos oficiais. Acho que a gente já teve algum caso assim antes e optou por não raspar pra não prejudicar a experiência de usuário. Mas agora tô pendendo pro lado que a gente deveria republicar. É o que veio da fonte, fazer oq? Mas vai prejudicar a experiência de usuário.

Sobre essa questão penso que pro intuito do projeto de expor os diários oficiais em si, incluindo esses casos de "dados inutéis" devem ser mantidos até para entendimento desses casos

@trevineju trevineju linked an issue Sep 18, 2024 that may be closed by this pull request
Copy link
Member

@ogecece ogecece left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

@victorfernandesraton precisei fazer uma correção antes de aprovar aqui. Tinha achado os outputs estranhos ao executar o raspador e verificando vi que a gente tava usando gazette_boxes ao invés de gazette_box dentro do for e com isso o parsing de edição e data pegava apenas o primeiro elemento da lista.

Ex: scrapy crawl ma_sao_jose_dos_basilios -a start_date=2024-08-01 -a end_date=2024-09-10 -O output.csv --logfile crawl.log

Antes:
output.csv
crawl.log

Depois:
output.csv
crawl.log

E quanto aos comentários acima, criei a seguinte issue: okfn-brasil/querido-diario-frontend#301

@ogecece
Copy link
Member

ogecece commented Sep 25, 2024

Mesclando! Valeu @victorfernandesraton !

@ogecece ogecece merged commit bf7e54d into okfn-brasil:main Sep 25, 2024
1 check passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Development

Successfully merging this pull request may close these issues.

[Manutenção] São José dos Basílios-MA
3 participants