Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

爬取评论问题 #5

Open
Archiewyq opened this issue Dec 13, 2018 · 8 comments
Open

爬取评论问题 #5

Archiewyq opened this issue Dec 13, 2018 · 8 comments

Comments

@Archiewyq
Copy link

不知道遇没遇到这样的问题:如果歌曲评论数比较多,中间日期的评论无法获得,比如我爬一个20w+评论的歌曲,结果只得到2w左右的评论,其他的全是重复内容(实际发现,爬取中间日期评论时,后台返回的结果都是一样的)。

@stoneworld
Copy link
Owner

有可能接口有变化,可以自己看下。我好久没爬了。

@Archiewyq
Copy link
Author

发现有人遇到过这样的问题,不过没有找到相关解决方法

@stoneworld
Copy link
Owner

stoneworld commented Dec 13, 2018

我用的接口也是网上公开的接口,不知道是不是网易做了什么限制没有。:) 我抽时间瞅瞅,我这边没有浮现到 可以不以把两次重复的 接口抓下呢

@Archiewyq
Copy link
Author

Archiewyq commented Dec 13, 2018

我用的接口也是网上公开的接口,不知道是不是网易做了什么限制没有。:) 我抽时间瞅瞅,我这边没有浮现到 可以不以把两次重复的 接口抓下呢

比如id:300129&limit=50&offset=10000,往后offset再增加,返回的内容都是一样的,你试试?或者是我的ip被“特殊”对待了😂

@stoneworld
Copy link
Owner

你没有错 是这样的 😱...应该是网易接口本身的问题了。

@Archiewyq
Copy link
Author

你没有错 是这样的 😱...应该是网易接口本身的问题了。

我说怎么分析数据的时候发现中间缺了一堆数据😂,这个问题好像讨论比较少,不知道大佬们有啥解决方法

@Sagx
Copy link

Sagx commented Apr 27, 2019

我觉得可能是网易云的反爬蜜罐

@Archiewyq
Copy link
Author

我觉得可能是网易云的反爬蜜罐

应该不是,可能是出于数据保护吧,自己的app也只能查看到前后各1w的评论数据

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants