全球旧事资料 分类

s算法接受输入量k;然后将
个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
大体上说,kmea
s算法的工作过程说明如下:首先从
个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度,分别将它们分配给与其最相似的聚类;然后再计算每个所获新聚类的聚类中心;不断重复这一过程直到标准测度函数开始收敛为止。一般都采
3
f用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
假设数据集D包含
个欧氏空间中的对象。划分方法把D中的对象分配到K个簇C1Cj中,使得对象1i,j≤kCiD且CiCj,一个目标函数用来评估划分的质量,使得簇内对象相互相似,而与其他簇中的对象相异。也就是说,该目标函数以簇内高相似性和簇间低相似性为目标。
基于形心的划分Ci技术使用簇的形心代表该簇。对象sCi与该簇的代表ci之差用dist(s,ci)度量,其中dist(x,y)sqrt∑xi1yi22这里i12
。簇Ci的质量可以用簇内变差度量,它是Ci中所有对象和形心ci之间的误差的平方和,
k
αdistsci2i1pci
(1)
其中,α是数据集中所有对象的误差的平方和;s是空间中的点,表示给定的
数据对象;ci是簇Ci的形心2。
22kmea
s算法流程
kmea
s算法流程,首先,随机的选择k个对象,每个对象初始地代表了一个聚类的平均值或中心,对剩下的各个对象,根据其与每个聚类中心的欧氏距离,将它派发给最相似的聚类。之后,应用更新之后的均值作为新的聚类中心,再重新分配全部对象。继续迭代,一直到分配趋于稳定,也就是本轮迭代所形成聚类与前一轮形成的聚类相同。
3、Kmea
s聚类算法的参数及其改进
kmea
s聚类算法需要用户指定3个参数:类别个数K,初始聚类中心、相似性和距离度量。针对这3个参数,kmea
s聚类算法出现了不同的改进和变种。
31基于K值的改进
在kmea
s算法中k是事先给定的,这个k值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适。这也是kmea
s算法的一个不足。有的算法是通过类的自动合并和分裂,得到较为合理的类型数目K,例如ISODATA算法。1解决方法聚类有效性函数
4
f根据聚类有效性函数的方法是非常简单的一种解决方法,从[2,N]的r
好听全球资料 返回顶部