【《数据仓库与数据挖掘》复习题】-全球旧事资料库

《数据仓库与数据挖掘》复习题

来提高分类准确率的技术称为A
A组合e
sembleB聚集aggregateC，合并combi
atio
D，投票voti
g
58简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚
类类型称作（B）
A、层次聚类
B、划分聚类
C、非互斥聚类
D、模糊聚类
59在基本K均值算法里，当邻近度函数采用（A）的时候，合适的质心是簇中各点的中
位数。
A、曼哈顿距离
B、平方欧几里德距离C、余弦距离
D、Bregma
散度
60（C）是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制
产生的。
A、边界点
B、质心
C、离群点
D、核心点
填空题
第一章
（1）数据库中的知识挖掘KDD包括以下七个步骤：
、
、
、
、
、
和
卑微如蝼蚁、坚强似大象
f共享知识分享快乐
（2）数据挖掘的性能问题主要包括：
、
和
（3）当前的数据挖掘研究中，最主要的三个研究方向是：
、
和
（4）在万维网WWW上应用的数据挖掘技术常被称为：（5）孤立点是指：答案：（1）数据清理，数据集成，数据选择，数据变换，数据挖掘，模式评估，知识表示（2）算法的效率、可扩展性和并行处理（3）统计学、数据库技术和机器学习（4）WEB挖掘（5）一些与数据的一般行为或模型不一致的孤立数据
第二章
（1）进行数据预处理时所使用的主要方法包括：
、
、
和
（2）处理噪声数据的方法主要包括：
、
、
和
（3）模式集成的主要问题包括：
和
（4）数据概化是指：
（5）数据压缩可分为：
和
两种类型。
（6）进行数值归约时，三种常用的有参方法是：
、
和
（7）数据离散度的最常用度量是
、
和
答案：
（1）数据清理、数据集成、数据变换、数据规约
（2）分箱、聚类、计算机和人工检查结合、回归
（3）整合不同数据源中的元数据，实体识别问题
（4）沿概念分层向上概化
（5）有损压缩，无损压缩
（6）线性回归方法，多元回归，对数线性模型
（7）五数概括、中间四分位数区间、标准差
第三章
（1）概念分层有四种类型，分别是：
、
、
和
（2）常用的四种兴趣度的客观度量是：
、
、
和
（3）同时满足
和
的关联规则称为强关联规则。
答案：
（1）模式分层，集合分组分层，操作导出的分层，基于规则的分层
（2）简单性、确定性、实用性、新颖性
（3）最小置信度临界值、最小支持度临界值
第四章
卑微如蝼蚁、坚强似大象
f共享知识分享快乐
（1）关联规则挖掘中，两个主要的兴趣度度量是：
和
（2）Aprior算法包括
和
两个基本步骤
（3）项集的频率是指
（4）r