搜索引擎论文自动文摘技术论文摘要:当前,搜索引擎是互联网的一个重要组成部分。其网页摘要采用的是静态网页额摘要,用户不能快速从网页摘要中获取网页内容的主题思想。本文在开源搜索引擎
utch中运用自动文摘技术生成网页摘要,加快用户确认搜索准确度的速度。关键词:搜索引擎;
utch;自动文摘技术;网页摘要
utchbasedsearche
gi
ewebabstractimproveme
thaogua
gqua
lishizice
tralchi
a
ormalu
iversitywuha
430079chi
aabstractcurre
tlythesearche
gi
eisa
importa
tpartofthei
ter
etthewebsiteusesastaticpagesummaryoftheamou
tofsummarytheuserca
otquicklyaccessthesummarypagefromthewebpageco
te
tthemei
thispapertheuseofope
source
utchsearche
gi
etech
ologytoge
eratewebpagesautomaticallyabstracta
dspeeduptheusertoco
firmthespeedofaccuracysearchkeywordssearche
gi
e
utchautomaticabstracti
gtech
iqueswebpageabstract
f一、引言随着计算机相关技术和网络应用领域的逐渐扩展,互联网信息呈爆炸式增长,相继出现的搜索引擎为网络用户获取有效信息提供了很大方便。最早现代意义上的搜索引擎出现于1994年7月。当时michaelmauldi
将joh
leavitt的蜘蛛程序接入到其索引程序中,创建了大家熟知的lycos。同年4月,斯坦福(sta
ford)大学的两名博士生,davidfilo和美籍华人杨致远(gerryya
g)共同创办了超级目录索引yahoo,使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期1。现有搜索引擎采用的是一种静态网页摘要方法,该方法是选取网页中首段的头、尾句或者含有搜索关键词的句子,然后结合标题,编稿时间,作者等信息作为网页的摘要。该方法实现简单,摘要结构性好,易于阅读,但不能突出体现网页内容主题思想,不利于用户判断搜索结果是否正确。在百度中搜索“美利坚合众国”二字的时候,结果页面显示如图1:在谷歌中搜索“美利坚合众国”的时候,结果列表中网页摘要和百度相似,都是采取的静态网页摘要。通过此法,用户很难知道网页的主题思想。本文的工作就是运用自动文摘技术生成网页摘要,让用户获取网页的主题思想,快速确
f定搜索结果是否准确。二、研究基础:(一)
utch工作原理
utch是一个开源代码、建立在luce
ce基础上的完整的web搜索引擎系统,可以每个月抓取几十亿网页,并为这些网页维护索引,对索引文件进行每天上千次的搜索2。图2为
utch的工作流程图:总体上,
utch工作分两个流程,爬虫crawl和查询searcher。crawl主要用于从网页上抓取网页并为这些网页建立索引。searcher主要利用这些索引检索用户r