全球旧事资料 分类
主题广告网络搜索技术研究与实现
学院(系):专业:
计算机科学与工程软件工程
学生姓名:学号:
指导教师:评阅教师:完成日期:
f基于Luce
e与Heritrix的搜索引擎构建


在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互联网带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地找到自己所需要的信息的问题,由此互联网搜索引擎应运而生。本文在对搜索引擎的原理、组成、数据结构和工作流程等方面深入研究的基础上,对搜索引擎的三个核心部分即网络蜘蛛、网页索引和搜索的分析及实现过程进行阐述。网络蜘蛛部分采用了基于递归和归档机制的Heritrix网络搜索;网页索引部分利用开源的Luce
e引擎架构设计并实现了一个可复用的、可扩展的索引建立与管理子系统;搜索部分在Ajax技术支持上,设计并实现了一个灵活、简洁的用户接口。本系统具有抓取网页、建立和管理索引、建立索引以及搜索信息等功能,具备一定的应用前景。关键词:搜索引擎;中文分词;索引
I
f基于Luce
e与Heritrix的搜索引擎构建
TheCo
structio
ofSearchE
gi
eBasedo
Luce
ea
dHeritrix
Abstract
Theco
te
tso
theWebarei
creasi
gexpo
e
tiallyastherapiddevelopme
toftheI
ter
etAproblemhowtoobtai
theusefuli
formatio
fromvastco
te
tsquicklya
daccuratelyisfaci
guswhilepeoplearee
joyi
gtheco
ve
ie
ceoftheI
ter
etThesolverofthisproblemisWebSearchE
gi
eThea
alysisa
dimpleme
tatio
processofthreebasiccompo
e
tsofsearche
gi
eCrawlerI
dexera
dSearcherisdescribedi
thispapero
thebasisoffurtherstudyo
thepri
ciplescompositio
datastructurea
dworkflowofsearche
gi
eThecrawlercompo
e
tisimpleme
tedwithHeritrixcrawlerbasedo
themecha
ismofrecursio
a
darchivi
gAreusableexte
siblei
dexestablishme
ta
dma
ageme
tsubsystemaredesig
eda
dimpleme
tedbyope
sourcepackage
amed“Luce
e”i
thei
dexercompo
e
tTheSearchercompo
e
tbasedo
theAjaxtech
ologyisdesig
eda
drealizedasaflexibleco
ciseuseri
terfaceThesystemhassomefu
ctio
ssuchascrawli
gwebpageestablishme
ta
dma
ageme
ti
dexestablishme
tloga
dsearchi
formatio
ithasacertai
applicatio
prospectKeyWords:SearchE
gi
e;Chi
eseWordSegme
tatio
;I
dex
II
f基于Luce
e与Heritrix的搜索引擎构建



要I
AbstractII1绪论r
好听全球资料 返回顶部