所有的DB相关的操作请写在Db.java中 Action:用于与前台进行交互 DAO:用于爬虫分析,索引模块。 Model:与数据库进行一一对应,建立实体类。
java书写规范: 方法( Method )的命名 方法名是一个动词,采用大小写混合的方式,第一个单词的首字母小写,其后单词的首字母大写。 方法名尽可能的描述出该方法的动作行为。返回类型为 Boolean 值的方法一般由“ is ”或“ has ”来开头 如: getCurrentUser() 、 addUser() 、 hasAuthority() 参数( Param )的命名 第一个单词的首字母小写,其后单词的首字母大写。参数量名不允许以下划线或美元符号开头, 常量字段 ( Constants )的命名 静态常量字段( static final ) 全部采用大写字母,单词之间用下划线分隔
细节: 解析网页时再对标签进行检查
项目日志 TASK: 第一阶段: 网页搜索
2015.7.1-2015.7.8
1、数据库建立
2、抓取URL 具体实现:通过SeedId找到对应的URL,对其进行遍历,查找其中所有符合条件的URL,将其存入URL表中
修改:
1、遍历Seed表,筛选出Status=0(未爬过的=0)的seed,加入ArrayList中
2、获取seed.url网页中的所有超链接网址,对其进行条件筛选,再存入URL表中。
2015.7.9-2015.15
具体任务:
1、抓取以种子网页为根的所有网站,存入URL表中
2、保存URL表中网页HTML
3、对保存的HTML进行标签解析,解析的内容存入本地的相应TXT文件中