Python WebScraper for Wikipedia (PT)

Este é um script simples em Python que utiliza as bibliotecas requests e re para extrair dados de artigos da Wikipédia em Português (pt.wikipedia.org). O script foi projetado para ser leve e não ter dependências complexas.

O que ele extrai?

Ao fornecer a URL de um artigo, o script irá extrair e imprimir no terminal três tipos de informação:

Sumário (TOC): Os títulos das seções principais do artigo.
Nomes dos Arquivos de Imagem: O nome dos arquivos de imagem (ex: Python_logo_and_wordmark.svg).
Links Internos: Links para outros artigos dentro da própria Wikipédia. Links para seções da mesma página (#) ou para outras áreas (ex: Ficheiro:) são ignorados.

Como usar

Requisitos

Python 3.x
Biblioteca requests

Instalação

Clone o repositório e instale a dependência:

git clone https://github.com/YuriCMarinho/WebScraper.git
cd WebScraper
pip install requests

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Python WebScraper for Wikipedia (PT)

O que ele extrai?

Como usar

Requisitos

Instalação

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Python WebScraper for Wikipedia (PT)

O que ele extrai?

Como usar

Requisitos

Instalação