-
-
Notifications
You must be signed in to change notification settings - Fork 409
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Manutenção] Novo raspador para Maragogi-AL #1176
Labels
maintenance
Demanda de manutenção
priority
Issue endereça algo prioritário
spider
Adiciona robô raspador para município(s)
Comments
trevineju
added
spider
Adiciona robô raspador para município(s)
priority
Issue endereça algo prioritário
maintenance
Demanda de manutenção
labels
Jun 18, 2024
estou tentando fazer esse :) |
boa, @gabrielqr! tem documentação aqui pra te ajudar: https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html |
14 tasks
@trevineju acredito que está pronto :) qualquer coisa me avisa |
14 tasks
Merged
14 tasks
ogecece
added a commit
that referenced
this issue
Oct 16, 2024
#### Layout do site publicador de diários oficiais Marque apenas um dos itens a seguir: - [x] O *layout* não se parece com nenhum caso [da lista de *layouts* padrão](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/lista-sistemas-replicaveis.html) - [ ] É um *layout* padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão. - [ ] É um *layout* padrão e todos os municípios adicionados usam a [classe de spider base](https://github.com/okfn-brasil/querido-diario/tree/main/data_collection/gazette/spiders/base) adequada para o padrão. #### Código da(s) spider(s) - [x] O(s) raspador(es) adicionado(s) tem os [atributos de classe exigidos](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider). - [x] O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos [os metadados necessários](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#Gazette). - [x] O atributo de classe [start_date](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider.start_date) foi preenchido com a data da edição de diário oficial mais antiga disponível no site. - [x] Explicitar o atributo de classe [end_date](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider.end_date) não se fez necessário. - [x] Não utilizo `custom_settings` em meu raspador. #### Testes - [x] Uma coleta-teste **da última edição** foi feita. O arquivo de `.log` deste teste está anexado na PR. - [x] Uma coleta-teste **por intervalo arbitrário** foi feita. Os arquivos de `.log`e `.csv` deste teste estão anexados na PR. - [x] Uma coleta-teste **completa** foi feita. Os arquivos de `.log` e `.csv` deste teste estão anexados na PR. #### Verificações - [x] Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles [conforme a documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#diarios-oficiais-coletados) não encontrando problemas. - [x] Eu verifiquei os arquivos `.csv` gerados pela minha coleta [conforme a documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#arquivos-auxiliares) não encontrando problemas. - [x] Eu verifiquei os arquivos de `.log` gerados pela minha coleta [conforme a documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#arquivos-auxiliares) não encontrando problemas. #### Descrição Reimplementação do raspador do município de Maragogi AL , anteriormente citado nesta issue #1176 e feito parcialmente nesta PR #1186, porém o mesmo ficou muito tempo esperando retorno do desenvolvedor, visto que houve mudanças drásticas no site dos diários oficiais em questão, decidi abrir esta nova PR para facilitar o fluxo de revisão - Logs e outputs de uma extração completa: [output-all.log](https://github.com/user-attachments/files/17197804/output-all.log) [output-all.csv](https://github.com/user-attachments/files/17197805/output-all.csv) - Logs e outputs de uma extração com data aleatória (2024-05-10 até 2024-08-23): [output-date.csv](https://github.com/user-attachments/files/17197810/output-date.csv) [output-date.log](https://github.com/user-attachments/files/17197809/output-date.log)
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Labels
maintenance
Demanda de manutenção
priority
Issue endereça algo prioritário
spider
Adiciona robô raspador para município(s)
Estamos sem dados de Maragogi-AL desde 15/abril/24. Este município não tem raspador próprio, pois fazia parte da associação de municípios, por isso, era coletado por al_associacao_municipios.py
Agora, os diários oficiais estão no endereço: https://maragogi.al.gov.br/diarios-oficiais/diario-oficial-2024
É necessário desenvolver um novo raspador para a URL
The text was updated successfully, but these errors were encountered: