全球旧事资料 分类
被发表。Hamda
与Govaert已经通过运用EM算法解决使混合密度适合不确定性数据聚类的问题8。然而,这个模型不能任意地应用于其他聚类算法因为它相当于为EM定制的。在数据区间的聚类也同样被研究。像城区距离或明考斯基距离等不同距离测量也已经被用来衡量两个区间的相似度。在这些测量的大多数中,区间的概率密度函数并没有被考虑到。另外一个相关领域的研究就是模糊聚类。在模糊逻辑中的模糊聚类研究已经很久远了13。在模糊聚类中一个是数据簇由一组目标的模糊子集组成。每个目标与每个簇都有一个“归属关系度”。换言之,一个目标可以归属于多个簇,与每个簇均有一个度。模糊C均值聚类算法是一种最广泛的使用模糊聚类方法27。不同的模糊聚类方法已被应用在一般数据或模糊数据中来产生的模糊数据簇。他们研究工作是基于一个模糊数据模型的,而我们工作的开展则基于移动目标的不确定性模型。
3不确定数据的分类
在图2中,我们提出一种分类法来阐述数据挖掘方法怎么根据是否考虑数据不准确性来分类。有很多通用的数据挖掘技术,如关联规则挖掘、数据分类、数据聚类。当然这些技术需要经过改进才能用于处理不确定性技术。此外,我们区分出数据聚类的两种类型:硬聚类和模糊聚类。硬聚类旨在通过考虑预期的数据来提高聚类的准确性。另一方面,模糊聚类则表示聚类的结果为一个“模糊”表格。模糊聚类的一个例子是每个数据项被赋予一个被分配给数据簇的任意成员的概率。
3
f不确定性数据挖掘:一种新的研究方向
图2不确定性数据挖掘的一种分类
例如,当不确定性被考虑时,会发生一个有意思的问题,即如何在数据集中表示每个元组和关联的不确定性。而且,由于支持和其他指标的概念需要重新定义,不得不考虑改进那些著名的关联规则挖掘算法如Apriori。同样地,在数据分类和数据聚集中,传统算法由于未将数据不确定性考虑在内而导致不能起作用。不得不对聚类质心、两个目标的距离、或目标与质心的距离等重要度量作重新定义和进行更深的研究。
4.不确定性数据聚类实例
在这个章节中,我们将以不确定性数据挖掘的例子为大家介绍我们在不确定性数据聚类中的研究工作。这将阐明我们在改进传统数据挖掘算法以适合不确定性数据问题上的想法。41问题定义用S表示V维向量xi的集合,其中i1到
,这些向量表示在聚类应用中被考虑的所有记录的属性值。每个记录oi与一个概率密度函数fix相联系,这个函数就是oi属性值x在时间t时刻的概率密r
好听全球资料 返回顶部