Este é um script em Python desenvolvido para extrair e estruturar dados de artigos da Wikipédia em português. O projeto foi criado com foco educacional, utilizando Expressões Regulares (Regex) para fazer a varredura do código-fonte (HTML), como parte da disciplina de Linguagens Formais e Autômatos.
O programa funciona via terminal e oferece um menu interativo com as seguintes opções:
- Listar tópicos do índice do artigo: Identifica a hierarquia de títulos e subtítulos da página e exibe o sumário formatado.
- Listar imagens do artigo: Extrai e lista os nomes/links de todos os arquivos de imagem legítimos (jpg, png, svg, etc.) presentes no corpo do texto.
- Listar links para outros artigos: Mapeia todos os links internos que direcionam para outros artigos válidos da Wikipédia (ignorando páginas de categoria, usuários, ajuda, etc.).
O projeto foi construído puramente com bibliotecas padrão (built-in) do Python, dispensando a instalação de dependências externas.
re- Para a criação e aplicação das Expressões Regulares.urllib(request,error,parse) - Para requisições HTTP e manipulação de URLs.ssl- Para lidar com certificados ao acessar as páginas via HTTPS.
Você precisa apenas ter o Python 3.x instalado na sua máquina.
- Clone ou baixe este repositório.
- Abra o terminal na pasta onde o arquivo se encontra.
- Execute o script com o comando:
python nome_do_arquivo.py