Skip to content

joaopldantas/web-scraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Web Scraper - Wikipédia (pt)

Este é um script em Python desenvolvido para extrair e estruturar dados de artigos da Wikipédia em português. O projeto foi criado com foco educacional, utilizando Expressões Regulares (Regex) para fazer a varredura do código-fonte (HTML), como parte da disciplina de Linguagens Formais e Autômatos.

Funcionalidades

O programa funciona via terminal e oferece um menu interativo com as seguintes opções:

  1. Listar tópicos do índice do artigo: Identifica a hierarquia de títulos e subtítulos da página e exibe o sumário formatado.
  2. Listar imagens do artigo: Extrai e lista os nomes/links de todos os arquivos de imagem legítimos (jpg, png, svg, etc.) presentes no corpo do texto.
  3. Listar links para outros artigos: Mapeia todos os links internos que direcionam para outros artigos válidos da Wikipédia (ignorando páginas de categoria, usuários, ajuda, etc.).

Tecnologias Utilizadas

O projeto foi construído puramente com bibliotecas padrão (built-in) do Python, dispensando a instalação de dependências externas.

  • re - Para a criação e aplicação das Expressões Regulares.
  • urllib (request, error, parse) - Para requisições HTTP e manipulação de URLs.
  • ssl - Para lidar com certificados ao acessar as páginas via HTTPS.

Pré-requisitos e Execução

Você precisa apenas ter o Python 3.x instalado na sua máquina.

  1. Clone ou baixe este repositório.
  2. Abra o terminal na pasta onde o arquivo se encontra.
  3. Execute o script com o comando:
python nome_do_arquivo.py

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages