毕业设计(论文)外文资料翻译
系专姓学部:业:名:号:计算机科学与技术系计算机科学与技术洪维坤0807012215
外文出处:Proceedi
gofWorkshopo
the
(用外文写)
ofArtificialHualie
TaiWa
2005
指导老师评语:
签名:
年
月
日
f不确定性数据挖掘:一种新的研究方向
不确定性数据挖掘:一种新的研究方向
MichaelChau1Rey
oldChe
g2a
dBe
Kao31:商学院,香港大学,薄扶林,香港2:计算机系,香港理工大学九龙湖校区,香港3:计算机科学系,香港大学,薄扶林,香港
摘要
由于不精确测量、过时的来源或抽样误差等原因,数据不确定性常常出现在真实世界应用中。目前,在数据库数据不确定性处理领域中,很多研究结果已经被发表。我们认为,当不确定性数据被执行数据挖掘时,数据不确定性不得不被考虑在内,才能获得高质量的数据挖掘结果。我们称之为“不确定性数据挖掘”问题。在本文中,我们为这个领域可能的研究方向提出一个框架。同时,我们以UKmea
s聚类算法为例来阐明传统Kmea
s算法怎么被改进来处理数据挖掘中的数据不确定性。
1引言
由于测量不精确、抽样误差、过时数据来源或其他等原因,数据往往带有不确定性性质。特别在需要与物理环境交互的应用中,如:移动定位服务15和传感器监测3。例如:在追踪移动目标(如车辆或人)的情境中,数据库是不可能完全追踪到所有目标在所有瞬间的准确位置。因此,每个目标的位置的变化过程是伴有不确定性的。为了提供准确地查询和挖掘结果,这些导致数据不确定性的多方面来源不得不被考虑。在最近几年里,已有在数据库中不确定性数据管理方面的大量研究,如:数据库中不确定性的表现和不确定性数据查询。然而,很少有研究成果能够解决不确定性数据挖掘的问题。我们注意到,不确定性使数据值不再具有原子性。对于使用传统数据挖掘技术,不确定性数据不得不被归纳为原子性数值。再以追踪移动目标应用为例,一个目标的位置可以通过它最后的记录位置或通过一个预期位置(如果这个目标位置概率分布被考虑到)归纳得到。不幸地是,归纳得到的记录与真实记录之间的误差可能会严重也影响挖掘结果。图1阐明了当一种聚类算法被应用追踪带有不确定性位置的移动目标时所发生的问题。
1
f不确定性数据挖掘:一种新的研究方向
图1(a)表示一组目标的真实数据,而图1(b)则表示记录的已过时的这些目标的位置。如果这些实际位置是有效的话,那么它们与那些从过时数据值中得到的数据集群有明显差异。如果我们仅仅依靠r