论文编码TP181首都师范大学学士学位论文
基于Web的文本分类挖掘的研究
院系信息工程学院
专业计算机科学与技术系师范
年级2001
学号
指导老师刘丽珍
论文作者徐颖
完成日期2005年6月6日
f中文提要
互联网现在已经成为一个巨大的信息源如何让互联网信息更好地为人类服务如何快速、准确获取所需信息是我们面临的一个重要课题。因此基于Web的网络信息处理成了当前的研究热点其中Web上的文本分类方法的研究是网络数据挖掘的研究重点之一。
本文介绍了数据挖掘Web挖掘和文本分类的理论对Web数据的特点作了分析比较了HTML与传统数据的区别分析了文本分类的几种算法重点研究了朴素贝叶斯分类算法和算法改进的具体过程。尝试利用HTML标记权重来改善朴素贝叶斯算法的条件独立假设的不足。简述了现有的对网页的标记过滤的知识并利用标记中的有用信息结合文本分类算法进行文本分类。最后针对改进的分类器的在精确率上不太理想的特点对本课题下一步要研究的内容进行了总结并提出了自己的一些看法。
关键词
Web挖掘朴素贝叶斯数据挖掘文本分类网页标记
fResearchofTextClassificatio
Mi
i
gbased
o
WEB
ABSTRACT
I
ter
ethasbecomeagreati
formatio
sourceItisa
importa
tissuesforustoco
fro
tthathowtomaketheI
ter
eti
formatio
servepeoplebettera
dhowtoobtai
thei
formatio
quicklya
daccuratelyNowadaystheResearchofi
formatio
processi
gbasedo
webisahotspotThetextcategorizatio
ofwebhasbecamemoreimporta
ttha
theotherresearchofwebmi
i
g
Thetheoreticaldevelopme
tofdatami
i
gWebmi
i
ga
dtextclassificatio
arei
troduceda
alyzesthefeatureofWebdatacompareswiththeotherdata
aivebayesclassifierA
alyzessomearithmeticsoftextcategorizatio
a
dtheco
creteprocessoftheimproveme
tofarithmetici
aivebayesclassifierareputemphasiso
ThisthesistriestomakeuseofHTMLtagstoimprovethearithmeticof
aivebayesclassifierwhosebugisitshypothesisI
thepracticeoftheclassifierthethesissummarizesthemethodwhichca
leachHTMLtagsthe
triestousethei
formatio
fromthetagsa
dthetextcategorizatio
arithmetictoclassifythetext
Fi
allytheprecisio
oftheclassifierwhichhasbee
improvedis
otidealsothe
extco
te
tsofthissubjectaresummarizeda
dsomeo
esow
viewsarealsoprese
ted
XuYi
g
DirectedbyLiuLizhe
Keyword
WebMi
i
gNaveBayesDataMi
i
gTextcategorizatio
HTMLtags
f目录
中文提要1
外文提要错误未定义书签。第一章绪论4
11选题背景及意义4
12数据挖掘4
13Web挖掘5
14Web挖掘的r