-
-
Notifications
You must be signed in to change notification settings - Fork 415
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Aracaju-SE spider #570
Aracaju-SE spider #570
Conversation
f8030ed
to
2475d18
Compare
Recuperei essa PR para integrarmos a capital, modifiquei algumas poucas coisas (reposicionei métodos no arquivo, completei o objeto Gazette em que faltava Agora resta só um problema principal: a interação com o campo de mês não está funcionando, por isso o raspador só coleta o mês de Janeiro dos anos ( Segue log de uma extração completa: se_aracaju_completa_novo.log | se_aracaju_completa_novo.csv Neste zip, respostas.zip, deixo o HTML de duas páginas de evidência da situação:
O raspador já estava se comportando assim antes de eu modificar e conferi que, mesmo com as minhas modificações, isso não mudou. Acho que estava usando O mesmo para # primeiras requisições
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp>
# requisições depois de chamar start_requests() de novo na linha 46
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=DC729139FDFC6C1780F89A199A339CCE>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=CF470279D7AFDBE04C9E76CD514A3022>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=809997A2C7F076A2424F1B3B7947E2B3>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=CDD31AE82BD9E9DFEB3726637CA20151>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=7625BC00CBB7959E1CD01C5380D70EDC>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=6F7210974D35BB56E67A0BBB65B6347D>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=CE0359341FE57B0D37A326FE8F0CD1B1>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=C2C6095A1C6164F49643DB7B1C87802A>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=B53C84BEDDBE590B8FB36AF8A0D113DA>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=014358E8998C10B34F02B7D2EEDDF92F>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=111F74D48070A972FE1FD15C45164ACD>
<200 http://sga.aracaju.se.gov.br:5011/legislacao/faces/diario_form_pesq.jsp;jsessionid=C940439C751028A5AD803412372675DC> PENDENCIANotei também que o raspador não tem lógica para coletar edições extras, e elas existem (por exemplo, em dezembro/2024), mas também não adicionei essa modificação, pq, como a navegação por mês não funciona, não consegui chegar no caso para testar. |
@rennerocha, @tcurvelo, como já faz muito tempo que vocês trabalharam nessa PR, vou jogar na comunidade para saber se tem gente que se aventura em encarar o desafio (já passei um dia todo nela, fiquei esgotada de ideias de como resolver D:). Mas se vocês tiverem a fim de retomar e terminar, seria incrível 💖 |
[se_aracaju] Handle concurrent sessions by using cookiejars [se_aracaju] Handle pagination [se_aracaju] Remove old (and commented) code [se_aracaju] Remove autogenerated fields [se_aracaju] Black-ify Move Aracaju-SE spider to new location Make Aracaju-SE aware of start_date and end_date With this change, we are able to specify the time range we want to retrieve when executing this spider, reducing the amount of requests and not doing a full crawl every time.
Reorganiza código para seguir fluxo de leitura Renomeia métodos Move se_aracaju para diretório /se wip
Remove método auxiliar Renomeia variáveis
Remove redundância em chamada de requisição
@ogecece deu uma força para corrigir a interação do raspador para coleta dos meses e resolvi a limitação da coleta de edições extras. Então, é isso! Obrigada, pessoal! |
Esqueci de adicionar no comentário anterior, mas os testes do raspador: se_aracaju_periodo_1mes.csv |se_aracaju_periodo_1mes.log A coleta completa não foi finalizada pois não tenho espaço de memória para tanto, mas do que coletou: |
Finishing work started in #311