- 基于百万评论数据
- 监督学习
- 抓取评论源码https://github.com/renxinqiang/SpiderComment
- 广度优先抓取
- 存储介质mysql
- Python3
- 分词create_comment_list.py
- 权重添加
jieba.add_word('脑子瓦塔',freq=20000)
jieba.add_word('玛吉亚巴库内',freq=20000)
- 使用停用词stop_words.py 主要过滤口水词
还是
怎么
那么
- 等等
- 权重添加
- 抽取语句标签
jieba_res = jieba.analyse.extract_tags(comm)
- 分文件存储
- comment*.py -> ci
- matplotlib画图工具 matplotlib_test.py
- 评论数量对应等级用户饼图
- 全评论分词Top50热词折线图
- 抽取语句标签并过滤口水词Top50