搜索引擎技术研究发展
印鉴12,陈忆群1,张钢1广州510275)南京210093)
(1中山大学计算机科学系
(2南京大学计算机软件新技术国家重点实验室
摘要:介绍搜索引擎技术。首先以工作方式做分类介绍,接着介绍各部分工作原理和技术研摘要究,包括关键技术如:搜索器策略、检索策略、搜索结果处理、信息检索Age
t、多媒体搜索引擎等。最后展望搜索引擎发展重要方向。关键词:搜索引擎多媒体搜索引擎信息检索关键词
Searche
gi
etech
ologyresearchdevelop
Yi
Jia
12Che
Yiqu
1a
dZha
gGa
g1
1
Departme
tofComputerScie
ceZho
gsha
U
iversityGua
gzhou510275
2
StateKeyLaboratoryforNovelSoftwareTech
ologyNa
ji
gU
iversityNa
ji
g210093
Abstracti
troducesearche
gi
etech
ologyFirstcategorizethesystemsaccordi
gtoitsworki
gtypethe
exameachpart’stheorya
dtech
ologyA
alyzedaretheimporta
ttech
ologyi
cludi
gRobotstrategysearcherstrategyresultreorga
izeI
formatio
RetrievalAge
tMultimediasearche
gi
ea
dsoo
Fi
allyweco
cludethepaperwithsomefutureworko
researchfield
ofsearche
gi
e
KeywordSearche
gi
e,MultimediaSearche
gi
e,I
formatio
retrieval
1.引言.
因特网的发展形成了一个巨大的全球化信息空间,方便了信息的收集和获取。1999年统计数据1表明,Web上大约有2800000台服务器,存储网页超过8亿,并且仍以惊人的速度增长。Web信息的大容量、异构性、分布性和动态性给信息检索带来了挑战,如何快速获取需要的信息是用户面临的重大问题。搜索引擎技术可用来解决这一问题。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。搜索引擎提供的导航服务已成为互
本文研究得到国家自然科学基金资助60205007、广东省自然科学基金资助001264、031558、广东省科技计划项目资助2003C50118、南京大学计算机软件新技术国家重点实验室研究基金资助
1
f联网上非常重要的网络服务。同时,高性能的Web信息检索技术也是充分利用Web资源发展电子商务、远程教学、数字化图书馆等方面应用的重要基础。目前,搜索引擎技术已成为计算机工业界和学术界争相研究、开发的对象,并逐渐体现其经济价值。搜索引擎的性能主要取决于:索引数据库的容量、存放内容、以及更新速度,搜索速度,用户界面的友好程度以及是否易用等。搜索引擎是以传统信息检索技术为基础,利用其索引模型、匹配策略等方面的技术成果并针对Web资源的特点发展起来的信息检索技术,涉及多领域的理论和技术:数字图书r