全球旧事资料 分类
记录的数据值,那么将会很多的目标可能被置于错误的数据集群中。更糟糕地是,一个群中的每一个成员都有可能改变群的质心,因此导致更多的错误。
图1数据图图1(a)表示真实数据划分成的三个集群(a、b、c)(b)表示的有些目标(隐藏的)的。记录位置与它们真实的数据不一样,因此形成集群a’、b’、c’和c”。注意到a’集群中比a集群少了一个目标,而b’集群中比b集群多一个目标。同时,c也误拆分会为c’和c”。c表示方向不确定性被考虑来推测出集群a’,b’和c。这种聚类产生的结果比(b)结果更加接近(a)。
我们建议将不确定性数据的概率密度函数等不确定性信息与现有的数据挖掘方法结合,这样在实际数据可利用于数据挖掘的情况下会使得挖掘结果更接近从真实数据中获得的结果。本文研究了不确定性怎么通过把数据聚类当成一种激励范例使用使得不确定性因素与数据挖掘相结合。我们称之为不确定性数据挖掘问题。在本文中,我们为这个领域可能的研究方向提出一个框架。文章接下来的结构如下。第二章是有关工作综述。在第三章中,我们定义了不确定性数据聚类问题和介绍我们提议的算法。第四章将呈现我们算法在移动目标数据库的应用。详细地的实习结果将在第五章解释。最后在第六章总结论文并提出可能的研究方向。
2研究背景
近年来,人们对数据不确定性管理有明显的研究兴趣。数据不确定性被为两类,即已存在的不确定生和数值不确定性。在第一种类型中,不管目标或数据元组存在是否,数据本身就已经存在不确定性了。例如,关系数据库中的元组可能与能表现
2
f不确定性数据挖掘:一种新的研究方向
它存在信任度的一个概率值相关联12。在数据不确定性类型中,一个数据项作为一个封闭的区域与其值的概率密度函数(PDF)限定了其可能的值341215。这个模型可以被应用于量化在不断变化的环境下的位置或传感器数据的不精密度。在这个领域里,大量的工作都致力于不精确查找。例如,在5中,解决不确定性数据范围查询的索引方案已经被提出。在4中,同一作者提出了解决邻近等查询的方案。注意到,所有工作已经把不确定性数据管理的研究结果应用于简化数据库查询中,而不是应用于相对复杂的数据分析和挖掘问题中。在数据挖掘研究中,聚类问题已经被很好的研究。一个标准的聚类过程由5个主要步骤组成:模式表示,模式定义,模式相似度量的定义,聚类或分组,数据抽象和造工评核10。只有小部分关于数据挖掘或不确定性数据聚类的研究r
好听全球资料 返回顶部