Python WebScraper for Wikipedia (PT)

Este é um script simples em Python que utiliza as bibliotecas requests e re para extrair dados de artigos da Wikipédia em Português (pt.wikipedia.org). O script foi projetado para ser leve e não ter dependências complexas.

O que ele extrai?

Ao fornecer a URL de um artigo, o script irá extrair e imprimir no terminal três tipos de informação:

Sumário (TOC): Os títulos das seções principais do artigo.
Nomes dos Arquivos de Imagem: O nome dos arquivos de imagem (ex: Python_logo_and_wordmark.svg).
Links Internos: Links para outros artigos dentro da própria Wikipédia. Links para seções da mesma página (#) ou para outras áreas (ex: Ficheiro:) são ignorados.

Como usar

Requisitos

Python 3.x
Biblioteca requests

Instalação

Clone o repositório e instale a dependência:

git clone https://github.com/YuriCMarinho/WebScraper.git
cd WebScraper
pip install requests

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
README.md		README.md
grupo.txt		grupo.txt
interface.py		interface.py
webscraper.py		webscraper.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Python WebScraper for Wikipedia (PT)

O que ele extrai?

Como usar

Requisitos

Instalação

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Python WebScraper for Wikipedia (PT)

O que ele extrai?

Como usar

Requisitos

Instalação

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages