[WIP] Novo spider: São Paulo - SP #1143

trevineju · 2024-05-13T18:26:29Z

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

O layout não se parece com nenhum caso da lista de layouts padrão
É um layout padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão.
É um layout padrão e todos os municípios adicionados usam a classe de spider base adequada para o padrão.

Código da(s) spider(s)

O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
Explicitar o atributo de classe end_date não se fez necessário.
Não utilizo custom_settings em meu raspador.

Testes

Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

Verificações

Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

Esta branch foi criada pelo @valeriow para integrarmos o raspador de São Paulo-SP ao QD. Já faz alguns meses que Valerio começou e precisaria continuar. O ponto em que ele parou é o de tentar contornar as barreiras para raspagem que tem no site:

"eles parecem ter um sistema de proteção contra raspagem automatizada. Aparentemente eles aumentam o tempo de resposta em determinadas situações e às vezes ligam um captcha...
uma vez obtida a base histórica (diários antigos), acho que a raspagem incremental diária não seria um problema. Para obter a base histórica podemos tentar usar alguns artifícios técnicos: usar proxies, diminuir o fluxo das requisições, entre outros."

valeriow and others added 2 commits July 15, 2023 19:57

Rascunho de novo spider para Sao Paulo.

e2f1a38

Merge branch 'okfn-brasil:main' into sp_sao_paulo

647673c

trevineju changed the title ~~Novo spider: São Paulo - SP~~ [WIP] Novo spider: São Paulo - SP May 13, 2024

trevineju linked an issue May 29, 2024 that may be closed by this pull request

[Revisão retroativa] São Paulo-SP #776

Open

trevineju mentioned this pull request May 29, 2024

Ajuste de São Paulo, SP para funcionar nos moldes atuais do QD (de 2017-06-01 em diante) #775

Closed

5 tasks

trevineju marked this pull request as draft May 29, 2024 14:25

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[WIP] Novo spider: São Paulo - SP #1143

[WIP] Novo spider: São Paulo - SP #1143

trevineju commented May 13, 2024 •

edited

Loading

[WIP] Novo spider: São Paulo - SP #1143

Are you sure you want to change the base?

[WIP] Novo spider: São Paulo - SP #1143

Conversation

trevineju commented May 13, 2024 • edited Loading

Layout do site publicador de diários oficiais

Código da(s) spider(s)

Testes

Verificações

Descrição

trevineju commented May 13, 2024 •

edited

Loading