Este é um script simples em Python que utiliza as bibliotecas requests e re para extrair dados de artigos da Wikipédia em Português (pt.wikipedia.org).
O script foi projetado para ser leve e não ter dependências complexas.
Ao fornecer a URL de um artigo, o script irá extrair e imprimir no terminal três tipos de informação:
- Sumário (TOC): Os títulos das seções principais do artigo.
- Nomes dos Arquivos de Imagem: O nome dos arquivos de imagem (ex:
Python_logo_and_wordmark.svg). - Links Internos: Links para outros artigos dentro da própria Wikipédia. Links para seções da mesma página (
#) ou para outras áreas (ex:Ficheiro:) são ignorados.
- Python 3.x
- Biblioteca
requests
Clone o repositório e instale a dependência:
git clone https://github.com/YuriCMarinho/WebScraper.git
cd WebScraper
pip install requests