-
-
Notifications
You must be signed in to change notification settings - Fork 409
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Feature/1008 raspador sao jose dos basilios ma #1264
Feature/1008 raspador sao jose dos basilios ma #1264
Conversation
Validação de busca com data inicial 2020-01-01 e final 2022-01-01 |
Validação de buscas do mes de setembro OBS: Parece que as datas do site não batem com as datas do arquivo, não apaerce nenhum diário no dia 01/09/2024, mas ao acessar o elemento do dia 06/09/2024 chegamos a este pdf que informa em seu início que o mesmo foi publciado no dia 01/09/2024 |
Validação com todos os dados possivéis |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
@victorfernandesraton obrigado por atualizar esse raspador achei o resultado bem enxuto e objetivo. Tenho alguns pedidos de mudança quanto ao código e algumas opiniões pra você considerar.
Mas também queria ver contigo a melhor maneira de resolver um probleminha com o commit 9e79f27. Como é um commit de merge e está baseado em um commit muito antigo, ele acaba tornando a visualização dos histórico recente de commits bem bagunçada. Você poderia fazer um rebase com a main
atualizada pra que a história dessa branch fique linear? Se precisar de algum toque ou se achar melhor eu fazer, não tem problema, só avisar.
@victorfernandesraton o arquivo que apresentou é de 06/09/2024 mesmo. Você tinha analisado outra data e acabou trocando? O que me chamou a atenção aqui é o diário ser publicado sem atos oficiais. Acho que a gente já teve algum caso assim antes e optou por não raspar pra não prejudicar a experiência de usuário. Mas agora tô pendendo pro lado que a gente deveria republicar. É o que veio da fonte, fazer oq? Mas vai prejudicar a experiência de usuário. @trevineju tem opiniões? |
Eu consigo reverter sim, fazendo agora... |
adc3eaf
to
3938162
Compare
acho que faz sentido, podemos colocar um aviso na mensagem de retorno de resultados no site do QD avisando desse tipo de situação |
Sobre essa questão penso que pro intuito do projeto de expor os diários oficiais em si, incluindo esses casos de "dados inutéis" devem ser mantidos até para entendimento desses casos |
27a05d4
to
d6e4dd4
Compare
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
@victorfernandesraton precisei fazer uma correção antes de aprovar aqui. Tinha achado os outputs estranhos ao executar o raspador e verificando vi que a gente tava usando gazette_boxes
ao invés de gazette_box
dentro do for
e com isso o parsing de edição e data pegava apenas o primeiro elemento da lista.
Ex: scrapy crawl ma_sao_jose_dos_basilios -a start_date=2024-08-01 -a end_date=2024-09-10 -O output.csv --logfile crawl.log
Antes:
output.csv
crawl.log
Depois:
output.csv
crawl.log
E quanto aos comentários acima, criei a seguinte issue: okfn-brasil/querido-diario-frontend#301
Mesclando! Valeu @victorfernandesraton ! |
AO ABRIR uma Pull Request de um novo raspador (spider), marque com um
X
cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
Implementação de extração do município São José dos Basilios
OBS: Foi implementado com base nas correções dessa PR #1030