Skip to content

Linguistics-Ninja/cncorpus

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

一个基于scrapy的简易语料爬取爬虫

当前主要用于抓取网易的新闻页面,匹配所有新闻格式的url, 递归爬取。

要点

  • 去重
  • 爬取后的分词

About

中文语料爬取爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published