改造或提取html。它能超高速解析html,而且不会出错。就其他解析工具来说,htmlparser就是目前最好的html解析和分析的工具。因此,从heritrix爬取下来的Html页面通过htmlparser遍历解析成Txt文件,为赛事信息的筛选以及录入做好充足的准备。因为htmlparser需要与数据库sql连接进行页面的解析存储,因此本系统在这里运用了JAVA中的资源文件properties,通过加载
appproperties文件实现遍历Html文件解析并保存到指定的文件中。再次,本系统还引入了javaio包完成最后解析成功的Txt文件的读写工作。JAVAIO4流可分为四大抽象类:字符流:ReaderWriter,字节流:I
putStream(读数据)OutputStream(写数据)本系统中主要运用的是字节
4
f第2章相关技术简介
流与读写数据I
putStream和OutputStream。最后,而存入数据库则使用较为普遍的JDBC5技术,JDBC(JavaData
BaseCo
ectivityjava数据库连接)是一种用于执行SQL语句的JavaAPI,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。JDBC提供了一种基准,据此可以构建更高级的工具和接口,使
数据库开发人员能够编写数据库应用程序。下面就heritrix、htmlparser、java及javaio、JDBC进行介绍
221heritrix技术heritrix6技术Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工
具来供用户选择调用。
Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年
初。第一次正式发布是在2004年1月,并不断的被互联网档案馆和其他感兴趣的第三方改进。到现在已经成为一个成熟的开源爬虫,并被广泛使用。它的工作流程是一个循环,具体流程是:1在预定的URI中选择一个。2从选择的
URI的网址下载远程文件3分析,归档下载到的内容4从分析到的内容里面选择感兴趣的URI。加入预定队列。5标记已经处理过的URI。Heritrix的使用首先应该知道它的配置与使用,在这里,本系统用的是heritrix的1144的版本,安装heritrix时值得注意的heritrixproperties文件。在heritrixproperties中配置了大量与Heritrix运行息息相关的参数,这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI启动参数,以及Heritrix的日志格式等。当第一次运行Heritrix时,只需要修改该文件,为其加入WebUI的登录名和密码。
接着可以实行简单的任务抓取工作,当然,简单的安装于抓取工作不能满足本系统的r