全球旧事资料 分类
,从而提高科研工作的效率。
分类技术是数据挖掘中应用领域极其广泛的重要技术之一。至今已提出了多种分类算法,主要有决策树、关联规则、神经网络、支持向量机和贝叶斯、k-临近法、遗传算法、粗糙集以及模糊逻辑技术等。大部分技术都是使用学习算法确定分类模型,拟合输入数据中样本类别和属性集之间的联系,预测未知样本的类别。训练算法的主要目标是建立具有好的泛化能力的模型,该模型能够准确地预测未知样本的类别。
1.数据挖掘概述数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点
问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。
分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣,适合于不同的领域。目前随着新技术和新领域的不断出现,对分类方法提出了新的要求。
2.数据挖掘分类算法介绍分类是用于识别什么样的事务属于哪一类的方法,可用于分类的算法有决策
树、关联规则、神经网络、支持向量机和贝叶斯、k-临近法、遗传算法、粗糙集以及模糊逻辑技术等。下面对若干分类问题进行简要分析。
3
f2.1基于决策树的分类
基于决策树的分类算法是数据挖掘中最为典型的分类算法。决策树是一个类似
于流程图的树结构,其每个内部节点表示在一个属性上的测试,每个分枝代表一个
测试输出,每个叶节点代表类或类分布。
2.1.1决策树算法基本思想。开始时所有的训练样本在根部,基于最高信息
增益自顶向下递归地划分数据集,生成决策树。当一个结点上所有样本都属于同一
类或者没有剩余属性可以用来进一步划分样本时停止划分,形成一个叶结点。如果
叶结点上的样本不属于同一类,则根据大多数样本的分类来确定叶结点的类别。
创建决策树时,因数据中存在噪声和孤立点,许多分枝反r
好听全球资料 返回顶部