Skip to content

to train, explore and visualize word2ve in python jupyter notebook based on gensim package

License

Notifications You must be signed in to change notification settings

aarondeng/python_word2vec_tutorials

Repository files navigation

词向量训练与使用教程

基于gensim包进行python词向量训练与探索及可视化

项目背景

  • 本项目是北京外国语大学语料库语言学团队在2019年6月进行的三次python词向量学习交流活动中使用的ipython notebook源代码材料。
  • 所有源代码材料也可在北外语料库语言学网站下载

数据下载

  • TECCL V1.0

中国学生万篇英语作文语料库V1.1 (Ten-thousand English Compositions of Chinese Learners,the TECCL Corpus)可从北外语料库语言学网站下载

  • bnc_lower.bin

基于英语国家语料库(British National Corpus, 简称BNC)训练的词向量模型。 使用Gensim默认参数训练数(即维度100,窗口大小为5,训练方法为连续词袋CBOW算法,迭代次数为5),全部小写,没有去除停用词。 百度云盘下载,提取码:ec8k

环境要求

  • python3
  • gensim
  • nltk
  • numpy

参考资料

引用方式

邓海龙. Python词向量训练与应用技术解析. 《语料库语言学》,2019(2): 88-109.

联系方式

邮件地址:[email protected]

About

to train, explore and visualize word2ve in python jupyter notebook based on gensim package

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published