学号:2009030114
哈尔滨师范大学学士学位论文
题学
目生
基于支持向量机的文本分类算法研究与实现李慧颖李红宇副教授2009级计算机科学与技术计算机科学与技术计算机科学与信息工程
指导教师年专系学级业别院
f哈尔滨师范大学
学士学位论文开题报告
论文题目:基于支持向量机的文本分类算法研究与实现学生姓名:李慧颖指导教师:李红宇年专级:2009级业:计算机科学与技术
2013年3月1日
f课题来源:指导教师指导选题
课题研究的目的和意义:随着计算机技术的飞速发展以及I
ter
et的普及与应用,互联网上的电子文档信息急剧增加。如何从大量的信息中快速、准确地检索到所需的信息资料,是人们普遍关心的问题,也是计算机工作者急需解决的问题。面对如此复杂的问题,分类技术在信息检索、信息过滤、数据挖掘等方面起着至关重要的作用。而网上的大部分信息以文本的形式存在,于是文本自动分类技术就成为网上信息检索和信息过滤的关键。另外,文本分类可以应用到垃圾邮件的判定spamor
otspam,类别{spam
otspam};新闻出版按照栏目分类,类别{政治,体育,军事.;词性标注,类别{名词,动词,形容词)};词义排歧,类别{词义1,词义2.,文本检索,文本过滤以及主题发现与跟踪等。而从Spri
ger)全文电子期刊与IELIEEIEEE数据库中,可以看到最近的期刊与国际会议论文,有大量的关于文本分类的文章,说明随着大量的网上的电子信息,文本分类仍是人们研究的热点。面对网上的海量信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这种传统的人工分类的做法存在着许多弊端:一是耗费大量的人力,物力和精力;二是存在分类结果一致性不高的问题。这就要求我们探索计算机自动进行文本分类的有效方法,使得分类的正确率提高。只有这样才能保证检索的查全率和准确率都得到提高。文本自动分类是人工智能技术和信息检索技术相结合的研究领域,是进行基于内容的自动信息管理的核心技术。文本分类是指根据一些已经分配好类标签(这些类标签预先定义好)的训练文档集合,来对新文档分配类标签,其目的就是对文本集进行合理处理和组织,使得这些文本能够按照类别区分开来。作为知识的组织工具,它为信息检索提供了更高效的搜索策略和更准确的查询结果,其中,高效性在于用户可以首先确定查询的可能类别,以减小需进一步匹配的文本数量:有效性在于相似的文本r