本
科毕业
论文
主题网络爬虫的设计与实现主题网络爬虫的设计与实现
Desig
a
dimpleme
tatio
ofsubjectorie
tedcrawler
姓学学
名:路
刚
号:23020051204554院:软件学院系:软件工程
专年
业:软件工程级:2005级副教授
指导教师:史亮
二九年六月九
f摘要
目前信息网上蕴含了大量的信息,但通过人工浏览的方法很难做到对信息的安全浏览、整理,很多有用的信息也就白白流失,产生了大量信息不能及时应用的矛盾,给用户造成了很大的不便,为了解决这一问题,搜索引擎这一新热点技术应运而生,本文结合信息网的特征,运用信息抽取和网页解析技术,设计和实现了搜索引擎中最重要的部分网络爬虫,以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务。本文首先对概述了网络爬虫的发展概况,然后分析了网络爬虫的体系结构以及实现原理,并深入分析了主题页面在Web上的分布特征与主题相关性的判别算法,具体工作如下:1爬虫部分,通过设计种子网站进行爬虫,下载尽可能全且与用户要求相符合的网站。2网页预处理过程,包括分词、HTML解析和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪过程。3主题相关性判断,包括特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF算法和空间向量模型VSM算法,得到了更适合主题相关性判断的权值计算方法。4最后,在MYECLIPSE平台上,实现了一个简易的网络爬虫系统,并简要分析了爬虫的运行效果,达到了令人满意的效果。关键词:网页解析;TFIDF算法;VSM算法关键词
I
fAbstract
Curre
tlythereislotofi
formatio
i
thepublicsecurityi
formatio
websitebutitis
otpossibletovisita
dclea
upalli
formatio
o
lythroughartificalma
ersomuchimporti
formatio
wouldbelostalsowouldgoagi
stcracki
gacrimi
alcasewhichcausesagreatdealofi
co
ve
ie
cetousersTodealwiththisproblemsearche
gi
etech
ologycamei
tobei
gthe
ewhotspotBasedo
thecharacteristicsofi
formatio
etworksthepaperdesig
eda
dimpleme
tedthemostimporta
tpartofsearche
gi
eWebSpider,usi
gi
formatio
extractio
a
dweba
alytictech
ologytoprovidemoredetailedclassificatio
accuracydataismorecomprehe
sivea
di
depthmoretimelyupdatesofI
ter
etsearchservicesThispaperfirstoutli
edthedevelopme
tofsearche
gi
esa
dreptileresearch
etworkstatusa
dthe
a
alyzedthearchitectureoftopicsearche
gi
ea
ddepthlya
alysdthether