全球旧事资料 分类
很可能与相同的查询相关,这样使得检索的查全率和准确率都得到了提高。
f国内外同类课题研究现状及发展趋势:1国外文本自动分类主要经历了四个发展阶段:第一阶段19581964:研究文本自动分类的可能性;第二阶段19651974:进入文本自动分类的实验性阶段;第三阶段19751998:文本自动分类的实用性阶段;第四阶段1990至今:因特网文本自动分类研究阶段。在20世纪80年代术以前,基于知识工程的方法一直在文本分类方法中占主导地位。这种方法是由专业人员手工编写分类规则来表达领域专家所拥有的知识,将文档分到某个给定的类别体系中。这种方法需要有领域专家,还需要知识工程师手工编制大量的推理规则。其最典型的应用是卡内基集团为路透社开发的Co
strue系统。90年代以来,随着模式识别、机器学习、统计学习、数据挖掘等理论研究的发展,新型机器学习方法的不断涌现,基于机器学习的分类技术开始取代基于知识工程的方法,成为文本分类的主流技术。2.国内文本自动分类研究起步较晚,始于20世纪80年代初期。1981年侯汉清对计算机在文献分类工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。此后,有越来越多的人借鉴国外的一些研究成果,结合中文的特点进行中文文本自动分类的研究。中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类。复旦大学的周水庚等人用了Ngram方法对中文文本进行分类尝试,从文档中提取Ngram属性,然后用ON方法判别文本类别,摆脱了对词典和切词处理的依赖,实现文本分类的领域无关性和时间无关性。刁力力、石纯一等用Boosti
g来组合决策树(Stll
lps)的方法进行文本分类。卜东波从信息粒度的角度来剖析聚类和分类技术,试图使用信息粒度原理的框架来统一聚类和分类。庞剑峰等应用向量空问模型进行了中文文本分类实验,并同时对文本分类所涉及的关键性技术,例如特征提取,不同机器学习方法等进行了研究和探讨,给出了评估方法和实验结果。之后他又验证了在文本分类系统中应用反馈方法的可行性,给出了结合反馈方法的文本分类算法。
f课题研究的主要内容和方法,研究过程中的主要问题和解决办法:本文在研究文本分类和支持向量机理论的基础上,针对支持向量机在样本数目较多时其训练速度较慢的问题,针对支持向量机在样本维数较高时其训练和分类速度较慢的问题,用哈尔小波变换对训练样本和分类样本向量进行r
好听全球资料 返回顶部