Skip to content

Latest commit

 

History

History
7 lines (5 loc) · 186 Bytes

README.md

File metadata and controls

7 lines (5 loc) · 186 Bytes

一个基于scrapy的简易语料爬取爬虫

当前主要用于抓取网易的新闻页面,匹配所有新闻格式的url, 递归爬取。

要点

  • 去重
  • 爬取后的分词