【企业搜索引擎白皮书】-全球旧事资料库

企业搜索引擎白皮书

抓取）并提取出文字信息，然后交给索引器建立索引6。
网络蜘蛛将互联网比作由网页和链接构成的网，网络蜘蛛像蜘蛛爬网一样顺着链接从一个网页跳到另外一个网页。技术层面，网络蜘蛛从一个（或多个）原始站点出发，使用HTTP协议获得网页，通过对所获得的网页的解析，提取出新的链接，并根据一定得策略继续爬行新的链接。
网络蜘蛛的爬行策略主要有广度优先策略和深度优先策略。广度优先策略首先爬行第一层的网页，将第一层网页解析所得的发出链接存起来，待第一层链接都处理完毕，接着依次处理第二层的链接，如此一层一层地进行下去。深度优先策略从第一层链接中选取一个，抓取其指向网页并解析出发出链接，然后从发出
610
f链接中选出一个继续前述过程，直到达到一定得限制条件后，重返上层选取新的链接进行爬行。两种策略如图211所示。
图211广度优先与深度优先策略对比
由于互联网极其庞大，我们不可能抓取到互联网上所有的网页，所以特定的搜索引擎都会有一定的限制条件来防止爬虫抓取不必要的文件类型和无休止的抓取。例如，不关心PDF文档的爬虫会首先判断文件类型，并不耗费带宽去抓取PDF文档；某一大型网站的专用搜索引擎会限制爬虫只抓取该网站下的网页。
爬虫的设计者和网站开发者之间有一些关于爬行的协议。网站开发人员可以在站点的首层目录下放置一个Robotstxt文件，指明该站点下那些目录可以访问，哪些目录不能访问。网站开发人员也可以建立一个网站地图（SiteMap）来列出该站点所有的网页链接，从而方便爬虫爬行该站点，同时有效地防止漏掉部分链接的情况。
33搜索引擎响应速度
搜索引擎查询结果的相关性固然重要，但响应速度也是必须要考虑的问题，
710
f毕竟没有人愿意花一天的时间去等待一个最佳答案。目前的商用搜索引擎中，Google返回的结果量和相关度都高于百度，但百度的响应速度高于Google。
可以通过对查询结果的预处理来获得较高的响应速度，我们可以使用缓存技术将一些经常被查询的词的查询结果保存在内存中，当用户输入包含多个词的查询请求时，只需要对这些查询请求进行合并和重新排序即可。查询预处理技术如图29所示。
图29查询预处理技术除查询预处理技术外，分布式技术可将查询任务分担到多台服务器去并行进行，从而提高响应速度。如果将预处理技术与分布式技术结合起来，效果更佳。
34系统结构图
810
fDATACo
figFile
DATACo
figFile
ESHome
DATACo
figFile
Webxml
ESxml
Clie
tBrowserHTTP
Tomcat
Servlet
ES核心API
第四章r