【软件工程毕业论文】-全球旧事资料库

软件工程毕业论文

改造或提取html。它能超高速解析html，而且不会出错。就其他解析工具来说，htmlparser就是目前最好的html解析和分析的工具。因此，从heritrix爬取下来的Html页面通过htmlparser遍历解析成Txt文件，为赛事信息的筛选以及录入做好充足的准备。因为htmlparser需要与数据库sql连接进行页面的解析存储，因此本系统在这里运用了JAVA中的资源文件properties，通过加载
appproperties文件实现遍历Html文件解析并保存到指定的文件中。再次，本系统还引入了javaio包完成最后解析成功的Txt文件的读写工作。JAVAIO4流可分为四大抽象类：字符流：ReaderWriter，字节流：I
putStream（读数据）OutputStream（写数据）本系统中主要运用的是字节
4
f第2章相关技术简介
流与读写数据I
putStream和OutputStream。最后，而存入数据库则使用较为普遍的JDBC5技术，JDBC（JavaData
BaseCo
ectivityjava数据库连接）是一种用于执行SQL语句的JavaAPI，可以为多种关系数据库提供统一访问，它由一组用Java语言编写的类和接口组成。JDBC提供了一种基准，据此可以构建更高级的工具和接口，使
数据库开发人员能够编写数据库应用程序。下面就heritrix、htmlparser、java及javaio、JDBC进行介绍
221heritrix技术heritrix6技术Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为，另外，它还有一个命令行工
具来供用户选择调用。
Heritrix是由互联网档案馆和北欧国家图书馆联合规范化编写于2003年
初。第一次正式发布是在2004年1月，并不断的被互联网档案馆和其他感兴趣的第三方改进。到现在已经成为一个成熟的开源爬虫，并被广泛使用。它的工作流程是一个循环，具体流程是：1在预定的URI中选择一个。2从选择的
URI的网址下载远程文件3分析，归档下载到的内容4从分析到的内容里面选择感兴趣的URI。加入预定队列。5标记已经处理过的URI。Heritrix的使用首先应该知道它的配置与使用，在这里，本系统用的是heritrix的1144的版本，安装heritrix时值得注意的heritrixproperties文件。在heritrixproperties中配置了大量与Heritrix运行息息相关的参数，这些参数主要是配置了Heritrix运行时的一些默认工具类、WebUI启动参数，以及Heritrix的日志格式等。当第一次运行Heritrix时，只需要修改该文件，为其加入WebUI的登录名和密码。
接着可以实行简单的任务抓取工作，当然，简单的安装于抓取工作不能满足本系统的r