Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Manutenção] Novo raspador para Maragogi-AL #1176

Closed
trevineju opened this issue Jun 18, 2024 · 3 comments · Fixed by #1290
Closed

[Manutenção] Novo raspador para Maragogi-AL #1176

trevineju opened this issue Jun 18, 2024 · 3 comments · Fixed by #1290
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário spider Adiciona robô raspador para município(s)

Comments

@trevineju
Copy link
Member

trevineju commented Jun 18, 2024

Estamos sem dados de Maragogi-AL desde 15/abril/24. Este município não tem raspador próprio, pois fazia parte da associação de municípios, por isso, era coletado por al_associacao_municipios.py

Agora, os diários oficiais estão no endereço: https://maragogi.al.gov.br/diarios-oficiais/diario-oficial-2024

É necessário desenvolver um novo raspador para a URL

@trevineju trevineju added spider Adiciona robô raspador para município(s) priority Issue endereça algo prioritário maintenance Demanda de manutenção labels Jun 18, 2024
@gabrielqr
Copy link
Contributor

gabrielqr commented Jun 22, 2024

estou tentando fazer esse :)

@trevineju
Copy link
Member Author

estou tentando fazer esse :)

boa, @gabrielqr! tem documentação aqui pra te ajudar: https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html

@gabrielqr
Copy link
Contributor

@trevineju acredito que está pronto :) qualquer coisa me avisa

@trevineju trevineju linked a pull request Jul 9, 2024 that will close this issue
14 tasks
@victorfernandesraton victorfernandesraton mentioned this issue Oct 1, 2024
14 tasks
@trevineju trevineju linked a pull request Oct 2, 2024 that will close this issue
14 tasks
ogecece added a commit that referenced this issue Oct 16, 2024
#### Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
- [x] O *layout* não se parece com nenhum caso [da lista de *layouts*
padrão](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/lista-sistemas-replicaveis.html)
- [ ] É um *layout* padrão e esta PR adiciona a spider base do padrão ao
projeto junto com alguns municípios que fazem parte do padrão.
- [ ] É um *layout* padrão e todos os municípios adicionados usam a
[classe de spider
base](https://github.com/okfn-brasil/querido-diario/tree/main/data_collection/gazette/spiders/base)
adequada para o padrão.

#### Código da(s) spider(s)
- [x] O(s) raspador(es) adicionado(s) tem os [atributos de classe
exigidos](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider).
- [x] O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette
coletando todos [os metadados
necessários](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#Gazette).
- [x] O atributo de classe
[start_date](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider.start_date)
foi preenchido com a data da edição de diário oficial mais antiga
disponível no site.
- [x] Explicitar o atributo de classe
[end_date](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider.end_date)
não se fez necessário.
- [x] Não utilizo `custom_settings` em meu raspador.

#### Testes
- [x] Uma coleta-teste **da última edição** foi feita. O arquivo de
`.log` deste teste está anexado na PR.
- [x] Uma coleta-teste **por intervalo arbitrário** foi feita. Os
arquivos de `.log`e `.csv` deste teste estão anexados na PR.
- [x] Uma coleta-teste **completa** foi feita. Os arquivos de `.log` e
`.csv` deste teste estão anexados na PR.

#### Verificações
- [x] Eu experimentei abrir alguns arquivos de diários oficiais
coletados pelo meu raspador e verifiquei eles [conforme a
documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#diarios-oficiais-coletados)
não encontrando problemas.
- [x] Eu verifiquei os arquivos `.csv` gerados pela minha coleta
[conforme a
documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#arquivos-auxiliares)
não encontrando problemas.
- [x] Eu verifiquei os arquivos de `.log` gerados pela minha coleta
[conforme a
documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#arquivos-auxiliares)
não encontrando problemas.

#### Descrição

Reimplementação do raspador do município de Maragogi AL , anteriormente
citado nesta issue
#1176 e feito
parcialmente nesta PR
#1186, porém o mesmo
ficou muito tempo esperando retorno do desenvolvedor, visto que houve
mudanças drásticas no site dos diários oficiais em questão, decidi abrir
esta nova PR para facilitar o fluxo de revisão


- Logs e outputs de uma extração completa:

[output-all.log](https://github.com/user-attachments/files/17197804/output-all.log)

[output-all.csv](https://github.com/user-attachments/files/17197805/output-all.csv)

- Logs e outputs de uma extração com data aleatória (2024-05-10 até
2024-08-23):

[output-date.csv](https://github.com/user-attachments/files/17197810/output-date.csv)

[output-date.log](https://github.com/user-attachments/files/17197809/output-date.log)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário spider Adiciona robô raspador para município(s)
Projects
2 participants