全球旧事资料 分类
映的是训练数据集中
的异常。剪枝方法可以剪去不可靠的分枝,提高分类速度和分类的准确度。常用的
剪枝方法有:先剪枝和后剪枝。前者通过提前停止树的构造而对树剪枝;后者在完
全创建好的树上剪去分枝。
2.1.2典型的决策树算法。最为典型的决策树学习算法是ID3,它采用自顶
向下不回溯策略,能保证找到一个简单的树。算法c4.5和c5.0是ID3的扩展,
它们将分类领域从类别属性扩展到数值型属性。
在决策树中,从根到树叶的每条路径以IFTHEN形式表示一条分类规则,沿
着给定路径上的每个属性一值对形成规则前件的一个合取项,叶结点包含类预测,
形成规则后件。
2.1.3优缺点。决策树很擅长处理非数值型数据,从决策树中可以方便地提
取分类规则。其主要优点是描述简单,分类速度快,特别适合大规模的数据处理。
不足之处是ID3算法偏向于选择属性较多的属性,而属性较多的属性往往不是最优
的属性:学习简单的逻辑表达能力较差。
2.2基于统计的分类
贝叶斯分类算法是基于贝叶斯定理的一种统计学分类算法。它们可以预测类成
员关系的可能性,如给定样本属于一个特定类的概率。如果出现类别重叠现象,贝
叶斯分类算法采用两种方法处理这种情况:一是选择后验概率最大的类别,二是选
择效用函数最大或损失最小的类别。贝叶斯分类也是一种常用的分类方法,它是
一种对属性集和类变量的概率关系建模的方法。其理论基础是贝叶斯定理,可用式
2.2.1表示。
pc|x=px|cpcpx
2.2.1
其中x是类标号未知的数据样本。设c为某种假定,如数据样本I属于某特定
类民则Pc|x为c成立的概率,也称为类c的先验概率;Px为x的支持度。Pc|
x是规定数据样本x,假定c成立的概率,称作类c的后验概率。Pxvc是假定c
成立的情况下,样本x的支持度,也称为类条件概率。
准确估计类标号和属性值的每一种可能组合的后验概率非常困难,因为即便属
4
f性数目不是很大,仍然需要很大的训练集。此时,贝叶斯定理很有用,因为它允许我们用先验概率Pc、类条件概率Px|c和Px来表示后验概率。
在比较不同类c的后验概率时,分母Px总是常数,因此可以忽略。先验概率Pc可以通过计算训练集中属于每个类的训练记录所占的比例很容易地估计。因此类c的后验概率Px|c的确定取决于对类条件概率Px|c的估计。对类条件概率Px|c的估计,常使用两种贝叶斯分类方法来实现:朴素贝叶斯分类和贝叶斯信念网络。
2.3基于神经网络的分类2.3.1基本思想。经常用r
好听全球资料 返回顶部