[WIP] Novo spider: São Paulo - SP #1143
Draft
Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
AO ABRIR uma Pull Request de um novo raspador (spider), marque com um
X
cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
Esta branch foi criada pelo @valeriow para integrarmos o raspador de São Paulo-SP ao QD. Já faz alguns meses que Valerio começou e precisaria continuar. O ponto em que ele parou é o de tentar contornar as barreiras para raspagem que tem no site:
"eles parecem ter um sistema de proteção contra raspagem automatizada. Aparentemente eles aumentam o tempo de resposta em determinadas situações e às vezes ligam um captcha...
uma vez obtida a base histórica (diários antigos), acho que a raspagem incremental diária não seria um problema. Para obter a base histórica podemos tentar usar alguns artifícios técnicos: usar proxies, diminuir o fluxo das requisições, entre outros."