全球旧事资料 分类
或数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。
挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。
背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的形式。
模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易性、确定性、适用性、和新颖性的特征。
发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地将知识传给用户,数据挖掘系统应该能将发现的各种形式的模式展示出来,正如规则、表格、饼或条形图、决策树、立方体或其它视觉的表示。
14113描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦合、松散耦合、半紧耦合和紧密耦合。你认为哪种方法最流行,为什么?
解答:数据挖掘系统和数据库或数据仓库系统的集成的层次的差别如下。
不耦合:数据挖掘系统用像平面文件这样的原始资料获得被挖掘的原始数据集,因为没有数据库系统或数据仓库系统的任何功能被作为处理过程的一部分执行。因此,这种构架是一种糟糕的设计。
松散耦合:数据挖掘系统不与数据库或数据仓库集成,除了使用被挖掘的初始数据集的源数据和存储挖掘结果。这样,这种构架能得到数据库和数据仓库提供的灵活、高效、和特征的优点。但是,在大量的数据集中,由松散耦合得到高可测性和良好的性能是非常困难的,因为许多这种系统是基于内存的。
半紧密耦合:一些数据挖掘原语,如聚合、分类、或统计功能的预计
算,可在数据库或数据仓库系统有效的执行,
以便数据挖掘系统在挖
掘查询过程的应用。另外,一些经常用到的中间挖掘结果能被预计算并存储到数据库或数据
仓库系统中,从而增强了数据挖掘系统的性能。
紧密耦合:数据库或数据仓库系统被完全整合成数据挖掘系统的一部份,并且因此提供了优化的数据查询处r
好听全球资料 返回顶部