需求,因此需要更多的扩展与组件的开发,首先需要扩
Fro
tierScheduler,将需要的所有链接的处理。将已经爬过的URI做标记,并将未处理的链接放入待处理队列。其次扩展MirrorWriterProcessor,有的
时候我们需要在网页下载之前将网页进行分析并提取有效内容存储起来,这时我们可以扩展MirrorWriterProcessor这个模块。利用一个开源的包
htmlparser分析网页结构,并将结果存储起来。htmlparser可以在文件中获得。
再将下载的包添加到项目的引用列表中,从而实现下个步骤的开发。
5
f第2章相关技术简介
222Htmlparser技术HTMLParser主要是常用来解析html页面并获取自己需要的数据,经常是和网络爬虫(如:Heritrix)一同使用,它的基本功能是:
1、信息提取1)文本信息抽取,例如对HTML进行有效信息搜索;2)链接提取,用于自动给页面的链接文本加上链接的标签;3)资源提取,例如对一些图片、声音的资源的处理;4)链接检查,用于检查HTML中的链接是否有效;5)页面内容的监控。2、信息转换1)链接重写,用于修改页面中的所有超链接;2)网页内容拷贝,用于将网页内容保存到本地;3内容检验,可以用来过滤网页上一些令人不愉快的字词;4HTML信息清洗,把本来乱七八糟的HTML信息格式化;5转成XML格式数据。本系统主要是通过htmlparser解析heritrix爬取下来的许多html文件,通过相关正则表达式知识,遍历解析html信息,再把本来乱七八糟的html信息格式化成txt文本,方便javaio流进行读写操作。
223java语言java语言Java是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由Su
Microsystems公司于1995年5月推出的Java程序设计语言和Java平台(即JavaSEJavaEEJavaME)的总称。Java技术具有卓越的通用性、高效性、平台移植性和安全性,广泛应用于个人PC、数据中心、游戏
控制台、科学超级计算机、移动电话和互联网,同时拥有全球最大的开发者专业社群。在全球云计算和移动互联网的产业环境下,Java更具备了显著优势和广阔前景。
java7编程语言的风格十分接近C语言、C语言。Java是一个纯粹的面向对象的程序设计语言,它继承了C语言面向对象技术的核心。Java舍弃了C语言中容易引起错误的指针(以引用取代)、运算符重载(operatoroverloadi
g)、多重继承(以接口取代)等特性,增加了垃圾回收器功能用于
回收不再被引用的对象所占据的内存空间,使得程序员不用再为内存管理而担
6
f第2章相关技术简介
忧。Java15版本中,Java又引入了泛型编程(Ge
ericProgrammi
g)r