Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问您对wikidata爬虫的时候,怎么从英文切换到中午的呢 #8

Open
davidpang731 opened this issue Jul 29, 2020 · 3 comments

Comments

@davidpang731
Copy link

我目前没看到wikidata有中文页面,而您predict_labels.txt中都是中文,那您爬取之后得到的数据不都是英文了吗?那您是进行简单的直接翻译处理了吗?或者是怎么样呢,希望您能够告知,谢谢!

@CrisJk
Copy link
Owner

CrisJk commented Jul 29, 2020

我目前没看到wikidata有中文页面,而您predict_labels.txt中都是中文,那您爬取之后得到的数据不都是英文了吗?那您是进行简单的直接翻译处理了吗?或者是怎么样呢,希望您能够告知,谢谢!

wikidata有中文数据的https://www.wikidata.org/wiki/Q503,我不太记得当时Statements里面是直接有中文;还是链接到具体的页面再拿到中文的。另外现在可能已经有可以直接下载的数据,你可以找找

@davidpang731
Copy link
Author

image

我看到的页面就是这样,全部英文,偶尔出现两句中文,不太能满足需求,是不是咱们登录vpn方式不同,所以您的页面自动转化成了英文呢?我用的是谷歌插件,定位到的爱尔兰、德国或者台湾这样的位置。
还有直接下载的数据的话,wikidata的数据确实可以下载,但是是所有实体一起下载,不分门类的,需要进行数据清洗,而且好像是英文的,具体的我还没有看。想问下您对于利用维基数据,有什么看法呢。

@CrisJk
Copy link
Owner

CrisJk commented Jul 29, 2020

  1. 实际上,比如这个页面,berry点进去是有中文的,理论上可以处理。
  2. wikidata其实也有中文数据能下载吧?我随便搜了一下 http://openkg.cn/dataset/http-pan-baidu-com-s-1c2ovnks 这个我没有细看,可能是可以用的,或许最新的数据也能下载。现在比较好找的中文图谱数据确实很少,另外如果你是高校需要用的,可以看一下CN-DBPedia。这个repo我很久没维护了,很多细节我也不记得了,不好意思,我在readme上更新了说明。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants