1742servlet的实现1843网页的解析实现20
431网页的分析20432网页的处理队列21433搜索字符串的匹配22434网页分析类的实现2244网络爬虫的实现25五、系统测试33六、结论35致谢35参考文献36
f一、项目背景
11搜索引擎现状分析
互联网被普及前,人们查阅资料首先想到的便是拥有大量书籍的图书馆,而在当今很多人都会选择一种更方便、快捷、全面、准确的方式互联网.如果说互联网是一个知识宝库,那么搜索引擎就是打开知识宝库的一把钥匙.搜索引擎是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术,用于帮助互联网用户查询信息的搜索工具.搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的.目前搜索引擎已经成为倍受网络用户关注的焦点,也成为计算机工业界和学术界争相研究、开发的对象.
目前较流行的搜索引擎已有GoogleYahooI
foseekbaidu等出于商业机密的考虑目前各个搜索引擎使用的Crawler系统的技术内幕一般都不公开现有的文献也仅限于概要性介绍随着Web信息资源呈指数级增长及Web信息资源动态变化传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要它们正面临着巨大的挑战以何种策略访问Web提高搜索效率成为近年来专业搜索引擎网络爬虫研究的主要问题之一。
12课题开发背景
目前虽然有很多种搜索引擎,但各种搜索引擎基本上由三个组成
f部分:1在互联网上采集信息的网页采集系统:网页采集系统主要使用
一种工作在互联网上的采集信r