全球旧事资料 分类
中的样本s%包含co
dset并且属于类y,则规则的支持度为s。若规则满足预先指定的最小支持度,则该规则是频繁;若给定数据集中包含co
set的样本c%属于类y,则规则的置信度为c;若满足最小置信度,则该规则是精确的。如果一个规则项集具有相同的co
dset,则选择具有最高置信度的规则作为可能规则,代表该集合。
2.4.2关联分类方法由两步组成。第一步是找出所有频繁的、精确的PR集合。算法使用迭代方法,类似Apriori。第二步使用一种启发式方法构造分类,发现的规则按支持度和置信度递减的优先次序组织,用满足新样本满足该样本的第一个规则对其分类。CBA是关联分类的经典算法,该方法比c4.5更精确。
2.5其他分类方法用于数据分类的方法还有:基于案例的推理分类法、遗传算法等。2.5.1基于案例的推理分类法。基于案例的推理分类法是基于要求的,其存放的样本是复杂的符号描述。当给定一个待分类的新案例时,基于案例的推理首先检查是否存在一个同样的训练案例。如果找到一个,则返回附在该案例上的解。如果找不到同样的案例,则基于案例的推理将搜索具有类似于新案例成分的训练案例,这些训练案例可视为新案例的邻接者。2.5.2遗传算法。遗传算法结合了自然进化的思想。遗传学习开始时创建了一个由随机产生的规则组成的初始群体,每个规则可以用一个二进制位串表示。根据适者生存的原则,形成由当前群体中最适合的规则组成的新群体,以及这些规则的后代。后代通过使用诸如交叉和变异等遗传操作来创建。由先前的规则群体产生新的规则群体的过程继续进化,直到群体中每个规则满足预先指定的适合度值
3.数据挖掘的应用数据挖掘技术已应用于许多领域,如在学校、银行、电信、股市、保险、交通、零售等领域已得到广泛的应用。
3.1数据挖掘技术在高校中的应用随着招生规模的扩大,高校的学生人数就达到上万人,甚至几万人,考试成绩达到几十万个数据,还有大量的学习成绩以外的影响因素,传统的学习成绩分析方
6
f法已不能完全满足需要,对此引入数据挖掘技术以找到影响学生成绩的真实原因,制定相应的措施,提高教育教学质量。
3.2数据挖掘技术在金融企业中的应用3.2.1数据挖掘技术在证券行业中得到广泛应用,数据挖掘技术作为分析与辅助决策工具已经越来越得到国内券商的重视。3.2.2数据挖掘技术也应用于银行业,数据挖掘可以从大量的历史记录中发现或挖掘出这种关联关系更深层次的、更详尽的方面。3.2.3数据挖掘技术也应用于保险r
好听全球资料 返回顶部