全球旧事资料 分类
征提取最主要的方法是把文档的内容和词频进行结合。
文档特征提取的是在不损伤文本核心信息的情况下尽量减少要处理的单词数,从而降低向量空间维数。其中最重要的方法是分析词频。其基本原理是一个词在一个文本中出现的次数越多,通常它在文本中就越重要。因此,可以计算词在文档中出现的概率即词频,来对文档的特征进行提取。另外,如果一个词在很多的文档中出现,表明它在该文档中的重要性越低,这个词就不能代表该文档的特征,文档的贡献度应该就越小,也就是通过这个词来区分文档的区分度越小,可以用逆文档频率(idf)来度量词在该文档中的重要性。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
设文档d中词w出现次数为cou
t(w,d),文档d中总词数为size(d),则词w在文档d中的词频tf由下式计算。
即tf(w,d)cou
t(w,d)size(d)。
词w在整个文档中的逆向词频idf为文档总数
与词w所出现文档数docs(w,d)比值的对数。
即idflog(
docs(w,d))。
如果要对逆向词频归一化可以采用如下的公式:
idflog((
05)docs(w,d))log(
1)
tfidf模型根据tf和idf为每一个文档d和由关键词w1wk组成的查询串q计算一个权值,用于表示查询串q与文档d的匹配度
tfidf(q,d)
sumi1ktfidf(wi,d)
sumi1ktf(wi,d)idf(wi)
三、文档特征的分类
文本特征的分类是在事先确定的分类标准下,根据文本的内容确定待分类的文本已知文本之间的类型关联。它和普通的数据分类方法是一致的,原则上现有的数据分类方法都可以实现这一功能。这一具体过程主要包括输入训练和分类两个步骤,对应的数据库包括训练数据库和检测数据库。训练数据库为带有分类标记的
个特征的若干个向量X组成的集合,x
f龙源期刊网httpwwwqika
comc
(w1,wi,w
,y),其中wi是文档向量的一个特征,y为该文档的分类标记。检测数据库同样是带有
个特征的若干个向量X组成的集合只是缺少分类标记。输出数据为标记号的集合即检测数据的分类标记。本文采用SVM分类方法对文本分类,对于一组训练数据x(w1,wi,w
,y),在线性可分的情况下会有一个超平面,将这两类样本完全分开,并且离超平面最近的向量与超平面之间的距离最大。
四、实验与分析本实验数据来源于天涯社区,它主要通过论坛、博客、微博为基础提供一系列网友和网站之间,网友和网友之间互动的虚拟综合平台。网友通过在其r
好听全球资料 返回顶部