Skip to content

Raspagem de dados utilizando Python para recuperar notícias sobre tecnologia

Notifications You must be signed in to change notification settings

lucas-da-silva/scrape-tech-news

Repository files navigation

Raspar notícias de tecnologia

tech-news.mp4

Sobre o projeto

Realiza consultas em nóticias sobre tecnologia e armazena os dados em um banco de dados MongoDB. Utiliza o site blog da Trybe para realizar a raspagem de dados.

Tecnologias utilizadas

  • Python - Linguagem de programação interpretada de alto nível.
  • Requests - Biblioteca Python HTTP para humanos.
  • BeautifulSoup - Biblioteca Python para extrair dados de arquivos HTML e XML.
  • PyMongo - Biblioteca Python para trabalhar com o MongoDB.
  • Pytest - Framework de testes em Python.

Funcionalidades

  • Realizar requisição HTTP.
  • Realizar raspagem de dados.
  • Armazenar as notícias em um banco de dados MongoDB.
  • Recuperar as notícias do banco de dados.
  • Script de raspagem de dados.

Instalação

# Clonar Projeto
$ git clone [email protected]:lucas-da-silva/scrape-tech-news.git

# Entrar no diretório
$ cd scrape-tech-news

# Criar ambiente virtual e ativá-lo
$ python3 -m venv .venv && source .venv/bin/activate

# Instalar dependências
$ python3 -m pip install -r dev-requirements.txt

# Subir o banco de dados
$ docker-compose up -d mongodb

# Executar o script de raspagem de dados
$ tech-news-analyzer

# Executar testes
$ python3 -m pytest

Estrutura do projeto

$PROJECT_ROOT
|   # Arquivos de raspagem de dados
├── tech_news
|   |   # Funções que acessam e recuperam dados do banco de dados 
│   └── analyzer
|   # Arquivos de testes
└── tests
    |   # Arquivos de mocks
    |-- mocks
    |   # Testes da função group_news_for_available_time
    └── reading_plan

Autor

About

Raspagem de dados utilizando Python para recuperar notícias sobre tecnologia

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published