Web Scraper - Wikipédia (pt)

Este é um script em Python desenvolvido para extrair e estruturar dados de artigos da Wikipédia em português. O projeto foi criado com foco educacional, utilizando Expressões Regulares (Regex) para fazer a varredura do código-fonte (HTML), como parte da disciplina de Linguagens Formais e Autômatos.

Funcionalidades

O programa funciona via terminal e oferece um menu interativo com as seguintes opções:

Listar tópicos do índice do artigo: Identifica a hierarquia de títulos e subtítulos da página e exibe o sumário formatado.
Listar imagens do artigo: Extrai e lista os nomes/links de todos os arquivos de imagem legítimos (jpg, png, svg, etc.) presentes no corpo do texto.
Listar links para outros artigos: Mapeia todos os links internos que direcionam para outros artigos válidos da Wikipédia (ignorando páginas de categoria, usuários, ajuda, etc.).

Tecnologias Utilizadas

O projeto foi construído puramente com bibliotecas padrão (built-in) do Python, dispensando a instalação de dependências externas.

re - Para a criação e aplicação das Expressões Regulares.
urllib (request, error, parse) - Para requisições HTTP e manipulação de URLs.
ssl - Para lidar com certificados ao acessar as páginas via HTTPS.

Pré-requisitos e Execução

Você precisa apenas ter o Python 3.x instalado na sua máquina.

Clone ou baixe este repositório.
Abra o terminal na pasta onde o arquivo se encontra.
Execute o script com o comando:

python nome_do_arquivo.py

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
__pycache__		__pycache__
.DS_Store		.DS_Store
README.md		README.md
web_scraper.py		web_scraper.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Web Scraper - Wikipédia (pt)

Funcionalidades

Tecnologias Utilizadas

Pré-requisitos e Execução

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Web Scraper - Wikipédia (pt)

Funcionalidades

Tecnologias Utilizadas

Pré-requisitos e Execução

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages