基于gensim包进行python词向量训练与探索及可视化
- 本项目是北京外国语大学语料库语言学团队在2019年6月进行的三次python词向量学习交流活动中使用的ipython notebook源代码材料。
- 所有源代码材料也可在北外语料库语言学网站下载
- TECCL V1.0
中国学生万篇英语作文语料库V1.1 (Ten-thousand English Compositions of Chinese Learners,the TECCL Corpus)可从北外语料库语言学网站下载
- bnc_lower.bin
基于英语国家语料库(British National Corpus, 简称BNC)训练的词向量模型。 使用Gensim默认参数训练数(即维度100,窗口大小为5,训练方法为连续词袋CBOW算法,迭代次数为5),全部小写,没有去除停用词。 百度云盘下载,提取码:ec8k
- python3
- gensim
- nltk
- numpy
邓海龙. Python词向量训练与应用技术解析. 《语料库语言学》,2019(2): 88-109.
邮件地址:[email protected]