Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于简书爬虫 #44

Open
FHU-yezi opened this issue Apr 20, 2021 · 2 comments
Open

关于简书爬虫 #44

FHU-yezi opened this issue Apr 20, 2021 · 2 comments
Labels
enhancement New feature or request

Comments

@FHU-yezi
Copy link

如果作者开发一个从特定文章获取数据的功能,也许会提升运行效率。

看了目前的爬虫代码,是从个人主页获取的,但是文章中获取好像有点难,开发工具里找不到对应的网络请求。

要爬的字段主要是这几个:

  • 简书钻
  • 阅读量
  • 发布时间
  • 点赞量
  • 评论量

后两个已经可以解决了,前三个可以在 Html 中找到,但直接 Get 获取不到,看网络请求发现没有,应该是 JS 发起请求再填充进去的,但我没有 JS 开发能力,没办法解析代码。

初步定位到请求应该来自 _app.js 这个文件,不知道具体怎么发起的,居然可以隐藏网络请求。

最后,我自己有个简书爬虫库,主页的 JianshuResearchTools 就是,也用的 Requests 和 BeautifulSoup4,可以参考一下,如果能提几个 PR 更好。

感谢开发大大。

@kangvcar
Copy link
Owner

@FHU-yezi 感谢您的提议,您的提议非常棒!by the way 您的 JianshuResearchTools 很棒。

@FHU-yezi
Copy link
Author

已经找到了接口,功能已经在 JRT 中实现,明天发版就包含了。

@kangvcar kangvcar added the enhancement New feature or request label Feb 4, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants