本项目通过下在校内网的3万多条公文,并且使用Lucene对其进行索引,主要有以下步骤。 使用HtmlParser来下载公文,使用线程池加快下载速度。 对文档的标题,发布事件,发文单位等进行索引。 用户输入关键字,使用Lucene来进行检索。