息查询的精度,利用信息机制进行过滤和个性化服务,采用分布式结构来提高系统规模和性能返回用户的方式。
123Web服务器
Web服务器也被称为HTTP服务器,它通过HTTP协议与客户端通信,采取超文本连接的概念,利用Blog、Rss、Psdcasti
g、SNS、WIKI、PageRa
k等技术任,使资源比较直观的表现出来。
13搜索引擎的主要指标及分析
搜索引擎的主要指标有响应时间、召回率、准确率、相关度等。这些指标决定了搜索引擎的技术指标,搜索引擎的技术指标决定了搜索引擎的评价标准。具有较快的反应速度和高召回率、准确率是衡量搜索引擎的重要指标,而实现此功能是需要搜索引擎技术指标来保障的。
2网络机器人
21网络机器人概念
网络机器人称Spider程序,是专业Bot程序的一种,用于查找大量的Web页面。
22网络机器人的结构分析
I
ter
et内存有很多协议,系统层中的协议较为复杂。网页是建立在系统层基于HTTP(HypertextTra
sferProtocol)协议基础上的,而TCPIP(Tra
smissio
Co
trolProtocolI
ter
etProtocol)是HTTP的基础协议,因此网络机器人就是一种Socket协议。
221网络机器程序结构
Spider在不同网页之间跳转,必须找到一个关键点,也就是页面上的超连接。网页代码由网络机器人解析,分解页面内的超连接,通过内部递归结构和非递归结构这两种结构实现Spider程序。URL在同一时间只能在一个队列内,这种状态称为URL状态。
f龙源期刊网httpwwwqika
comc
图1表示URL队列工作流程,Spider在URL被加入等待队列中程序被激活运行,Spider程序会按指定方式排序分析网页中URL,直到无列队时工作停止。
222Spider程序构造只有了解Spider程序工作原理及功能扩展,才能构建出高效的Spider程序。Spider类:这是一个实现了Ru
able的类,以便实现多线程提高性能。此外Spider还实现了Co
sta
ts,Co
sta
ts接口实际上是一个定义常量的地方,它定义了一些与线程处理有关的常量。工作流程图如图2所示:223提升程序性能。Web页面资源在互联网中十分丰富,提高Spider程序的效能成为最迫切的需求,就如何提高程序有效性介绍几种技术:(1)Java的多线程技术。多线程技术是指同一程序同时运行多个任务的能力,通过优化内部程序分工,强化程序间关联度,提高和改善程序性能。(2)数据库技术。利用数据库技术是存储网页中站点队列,将网页站点从内存中解放出来,达到提高性能的作用。
224Spider代码分析程序结构图为:
程序代码简要实现如下:
publicclassSpiderexte
dsLoggerimpleme
tsRu
able,Co
sta
ts
privateSpiderCo
figco
fig;privater