Skip to content

Luisa-Coelho/qd_cegonha

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

43 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

3° ciclo QD nas Universidades - Visualização da Rede Cegonha

Sumário da documentação

  1. Contextualização do projeto
  2. Bibliotecas importantes
  3. Entenda este repositório

- Contextualização do projeto

Formalizada pelas Portarias n° 1.459 e 650 de 2011, a Rede Cegonha visou o repasse de recursos no intuito de criar mais Centros de Parto Normal e Casas de Gestantes, Bebês e Puérperas, a ampliação de exames pré-natal e doenças sexualmente transmissíveis visando diminuir as taxas de mortalidade materno-infantil nos municípios. Além de indicadores como mortalidade e cobertura vacinal, não há como mensurar a dimensão da adesão dos municípios a esse plano. O processamento de linguagem natural em textos de diários oficiais pode ser uma técnica promissora para ser usado conjuntamente a esses indicadores já consolidados na literatura de avaliação de políticas de saúde materno-infantil, especialmente para os municípios que são heterogêneos. Nesse sentido, o estudo tem como objetivo comparar as técnicas de pré-processamento de linguagem natural (tokenização, stemming, taxonomia, remoção de stopwords, cortes de palavra baseado em frequência, N-grama, TF-IDF, bag-of-words, suavização e normalização) na extração de entidades nomeadas de diários oficiais dos municípios que possuem instituições incluídas na Rede Cegonha entre os anos de 2011 e 2021 (anos em que o Rede Cegonha teve vigência). Atualmente a Rede Cegonha está sendo substituída pela RAMI.

- Algumas bibliotecas úteis para o projeto:

Bertopic, é uma biblioteca que podemos utilizar para fazer modelagem de tópicos utilizando língua portuguesa. Teve bons resultados no trabalho realizado pela UNIT.

Scrapy é uma biblioteca que permite extrair informações de websites. Alguns comandos básicos:

NLTK é uma plataforma para trabalhar com linguagem natural. É uma API robusta na qual é necessário acessar os subpacotes de sua estrutura para trabalhar com as diversas funcionalidades, tais como modelos de linguagem, pré-processamento, análise de sentimento, entre outros.

SpaCy é uma biblioteca open-source para trabalhar com Processamento de Linguagem Natural (PLN). Na documentação, é possível aprender sobre as features do pacote, tais como pré-processamento de textos, modelos estatísticos incorporados, reconhecimento de entidades, entre outros.

O corpus, frequentemente mencionado no PLN, é uma coletânea de textos, sendo estes frequentemente o conjunto de dados linguístico em que será realizada a análise. Os pacotes que utilizam artifício da PLN possuem a capacidade de ler esse conjunto de dados e tranformá-los em corpus que são possíveis de serem interpretados pela linguagem da máquina.

Alguns outros pacotes

Pandas

Entenda este repositório

Este projeto é fruto da iniciativa da Open Knowledge Brasil com o lançamento da chamada de voluntários para trabalhar no âmbito do Querido Diário nas Universidades.

Como utilizar este repositório

pip3 install requirements.txt

Resultados

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published