【数据仓库与数据挖掘考试试题】-全球旧事资料库

数据仓库与数据挖掘考试试题

（10分）
选择：age25
过滤：过滤后的字段。Regio
te
ureagemaritalchur

类
型
：
f15给出以上数据流图中模型的执行结果（生成模型完全展开后的数据），对于执行结果太多的，可节选部分结果。（10分）
16对以上模型生成的结果做一简要的分析，包括算法采用的基本原理、数学模型、算法步骤等。15分答：kmea
s聚类算法基本原理：将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据划分为不同的类别，使得评价聚集类性能的准则函数达到最优，从而使生成的每个聚集类的紧凑，类间独立。操作步骤：输入：数据集其中的数据样本只包含描述属性，不包含类别属性。聚类个数K输出：（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别（2）对于X中的任意数据样本xm（1xmtotal），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点（4）对于X中的任意数据样本xm（1xmtotal），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中（5）重复34，直到各个聚类不再发生变化为止。即误差平方和准则函数的值达到最优
fr