类,设定聚类数为2个,相似度按照欧式距离计算。(15分)
解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k2,则可设m12,m24:
(2)对于X中的任意数据样本xm(1xmtotal),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m12时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为2,8,10,13,1,19。
当m24时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为2,6,8,11,1,17。
最小距离是1或者1将该元素放入m12的聚类中,则该聚类为(2,3),另一个聚类m24为(4,10,12,15,21)。
(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m125,m212:
(4)对于X中的任意数据样本xm(1xmtotal),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m125时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为05,05,15,75,95,125,185。
当m212时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为10,9,8,2,3,9。
最小距离是15将该元素放入m125的聚类中,则该聚类为(2,3,4),另一个聚类m212为(10,12,15,21)。
(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的
f新的代表点,由此得到k个均值代表点:m13,m2145:(6)对于X中的任意数据样本xm(1xmtotal),计算它与k个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m13时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为1,1,7,9,12,18,。当m2145时,样本(2,4,10,12,15,3,21)距离该代表点的距离分别为1258,115,105,45,25,05,65。最小距离是05将该元素放入m13的聚类中,则该聚类为(2,3,4),另一个聚类m2145为(10,12,15,21)。至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。
四.设计题(45分)13按照题目给定的3个数据文件,任选一个建立数据流图,要求至少包括记录选项、字段选项、图形结点各一个。任选关联规则Apriori算法、贝叶斯网络、KMea
s聚类、决策树C50(C45)算法、神经网络中的一个进行挖掘,并给出数据流图。(10分)
14对以上数据流图中使用的每个结点做一简短说明。r