Skip to content

微信公众号爬虫,PyQT5搭建GUI界面,request实现多线程爬虫。

License

Notifications You must be signed in to change notification settings

Zzzz0zzzZ/py-spider-for-wechat

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

微信公众号爬虫

欢迎二次开发,提交PR 🎉

Security Status

项目简介

利用python构建爬虫,爬取指定公众号历史文章及内容,同时支持利用关键词筛选文章。

img1

使用方法

获取token和cookie

1、前往微信公众平台登录或者注册公众号
2、进入微信公众平台主界面,按快捷键F12打开如下界面,并切换到【网络】

img2

3、刷新浏览器页面,点击查看图中指示的文件内容

img3

4、在【载荷】中复制鼠标选中的内容,复制到爬虫程序的【token】中

img4

img6

5、在【标头】中找到【请求标头】,复制图中鼠标选中的所有内容,复制到爬虫程序的【cookie】中

img5

img7

公众号选择

1、在爬虫程序中输入想要爬取的公众号名称,点击【查询】按钮

img8

2、在下方【选择公众号】的查询结果中,选择想要爬取的公众号

img9

爬取设置

1、起始页码 & 爬取页数

(1)公众号历史文章是分页获取的,一般一页有5-10篇文章

(2)公众号历史文章页数越小,时间越新,第0页存储的是最新文章

(3)推荐起始页码从0开始

(4)爬取页数不能为0,否则爬取结果为空

2、保存文件名 & 保存位置

输入正确的文件名,选择文件位置即可

3、关键词筛选(可填可不填)

(1)功能:用于根据关键词筛选文章,获取文章标题中包含关键词的文章。如果不填写,则获取所有文章。

(2)格式:关键词1;关键词2;关键词3

​ 用【中文分号】隔开,最后一个关键词后面不加分号

img10

开始爬取 & 查看结果

1、点击【开始爬取】按钮

img11

2、查看爬取结果

(1)程序会在选择的文件保存位置目录下,生成一个保存文件名_当日日期的文件夹,并在该文件夹下保存爬取内容

(2)raw文件夹里的内容,是爬取过程中产生的缓存文件,可以删除

img12

About

微信公众号爬虫,PyQT5搭建GUI界面,request实现多线程爬虫。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages