来提高分类准确率的技术称为A
A组合e
sembleB聚集aggregateC,合并combi
atio
D,投票voti
g
58简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚
类类型称作(B)
A、层次聚类
B、划分聚类
C、非互斥聚类
D、模糊聚类
59在基本K均值算法里,当邻近度函数采用(A)的时候,合适的质心是簇中各点的中
位数。
A、曼哈顿距离
B、平方欧几里德距离C、余弦距离
D、Bregma
散度
60(C)是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制
产生的。
A、边界点
B、质心
C、离群点
D、核心点
填空题
第一章
(1)数据库中的知识挖掘KDD包括以下七个步骤:
、
、
、
、
、
和
卑微如蝼蚁、坚强似大象
f共享知识分享快乐
(2)数据挖掘的性能问题主要包括:
、
和
(3)当前的数据挖掘研究中,最主要的三个研究方向是:
、
和
(4)在万维网WWW上应用的数据挖掘技术常被称为:(5)孤立点是指:答案:(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示(2)算法的效率、可扩展性和并行处理(3)统计学、数据库技术和机器学习(4)WEB挖掘(5)一些与数据的一般行为或模型不一致的孤立数据
第二章
(1)进行数据预处理时所使用的主要方法包括:
、
、
和
(2)处理噪声数据的方法主要包括:
、
、
和
(3)模式集成的主要问题包括:
和
(4)数据概化是指:
(5)数据压缩可分为:
和
两种类型。
(6)进行数值归约时,三种常用的有参方法是:
、
和
(7)数据离散度的最常用度量是
、
和
答案:
(1)数据清理、数据集成、数据变换、数据规约
(2)分箱、聚类、计算机和人工检查结合、回归
(3)整合不同数据源中的元数据,实体识别问题
(4)沿概念分层向上概化
(5)有损压缩,无损压缩
(6)线性回归方法,多元回归,对数线性模型
(7)五数概括、中间四分位数区间、标准差
第三章
(1)概念分层有四种类型,分别是:
、
、
和
(2)常用的四种兴趣度的客观度量是:
、
、
和
(3)同时满足
和
的关联规则称为强关联规则。
答案:
(1)模式分层,集合分组分层,操作导出的分层,基于规则的分层
(2)简单性、确定性、实用性、新颖性
(3)最小置信度临界值、最小支持度临界值
第四章
卑微如蝼蚁、坚强似大象
f共享知识分享快乐
(1)关联规则挖掘中,两个主要的兴趣度度量是:
和
(2)Aprior算法包括
和
两个基本步骤
(3)项集的频率是指
(4)r