全球旧事资料 分类
数据
分析和数据报告等步骤。
二、数据理解:一旦商业对象和计划书确定完备,数据理解就考虑将所需要的数据。这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等。
三、数据准备:确定可用的数据资源以后,需要对此进行筛选、清理、调整为所需要的形式。数据整理和数据转换等数据建模的准备工作需要在这一阶段完成。更深层次的数据探索也可以在这一阶段进行,新增模型的应用再次提供了在业务理解基础上看清楚数据模式的机会。四、建立模型:数据模型建立是应用数据挖掘软件不不同的情景下获得结果的过程。五、模型评估:数据解释阶段是至关重要的,要对建立的模型是否能够达到问题解决的目的进行研究,即包括模型是否能够达到研究的目标;模型是否能够用合适的方法显示。六、模型发布:数据挖掘既可以应用于核实先前的假设,也可以应用于知识发现(识别未预期的有用的关系)。
6为什么说强关联规则不一定都是,请举例说明之。并不是所有的强关联规则都是有效的。例如,一个谷类早餐的零售商对5000名
f学生的调查的案例。数据表明:60的学生打篮球,75的学生吃这类早餐,40的学生即打篮球吃这类早餐。假设支持度阈值s04,置信度阈值c60。基于上面数据和假设我们可挖掘出强关联规则“打篮球→吃早餐”,因为其打篮球和吃早餐的支持度都大于支持度阈值,都是频繁项,而规则的置信度c4060666也大于置信度阈值。然而,以上的关联规则很容易产生误解,因为吃早餐的比例为75,大于66。也就是说,打篮球与吃早餐实际上是负关联的。
二、分析题(满分20分,每小题10分)
1、请分析关联规则挖掘方法中,项目集格空间理论、发展及其在数据挖掘中的应用价值。项目集格空间理论
Agrawal等人建立了用于事务数据库挖掘的项目集格空间理论(1993Appriori属性)。
定理(Appriori属性1)如果项目集X是频繁项目集,那么它的所有非空子集都是频繁项目集。
定理(Appriori属性2)如果项目集X是非频繁项目集,那么它的所有超集都是非频繁项目集。
项目集格空间理论发展随着数据库容量的增大,重复访问数据库(外存)将导致性能低下。因此,
探索新的理论和算法来减少数据库的扫描次数和侯选集空间占用,已经成为近年来关联规则挖掘研究的热点之一。两个典型的方法:Close算法、FPtree算法
2、请分析Web挖掘技术所采用的方法及其在数据挖掘中的应用价值。Web挖掘依靠它所挖掘的信息来源可以分为:Web内容挖掘(WebCo
te
r
好听全球资料 返回顶部