数据挖掘层次聚类算法研究综述
摘要聚类问题是数据挖掘中的重要问题之一,是一种非监督的学习方法。分层聚类技
术在图像处理、入侵检测和生物信息学等方面有着极为重要的应用,是数据挖掘领域的研究热点之一。本文总结了分层聚类算法技术的研究现状,分析算法性能的主要差异,并指出其今后的发展趋势。
关键词层次聚类,数据挖掘,聚类算法
Reviewofhierarchicalclusteri
galgorithmi
DataMi
i
g
AbstractClusteri
gproblemofdatami
i
giso
eofimporta
tissuesitisaki
dof
u
supervisedlear
i
gmethodsStratifiedclustertech
ologyi
imageprocessi
gi
trusio
detectio
a
dbioi
formaticshasextremelyimporta
tapplicatio
a
disdatami
i
gareaofresearcho
eofthehotspotsThispapersummarizesthelayeredclusteri
galgorithmtech
ologyresearcha
alyzesthemai
differe
cearithmeticperforma
cea
dpoi
tedoutthefuturedevelopme
ttre
d
KeywordsHierarchicalclusteri
g,Datami
i
g,Clusteri
galgorithm
1引言
随着计算机技术的发展,信息数据越来越多,如何从海量数据中提取对人们有价值的信息已经成为一个非常迫切的问题。由此产生了数据挖掘技术,它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它在图像处理、入侵检测和生物信息学等方面有着极为重要的应用。数据挖掘是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。其目标是从数据库中发现隐含的、有意义的知识。聚类分析作为一个独立的工具来获得数据分布的情况,是数据挖掘的一个重要研究分支。
在数据挖掘领域,研究工作己经集中在为大型数据库的有效和实际的聚类分析寻找适当的方法。活跃的主题集中在聚类方法的可伸缩性,方法对聚类复杂形状和类型的数据的有效性,高维聚类分析技术,以及针对大型数据库中混合数值和分类数据的聚类方法。迄今为止,人们己经提出了很多聚类算法,它们可以分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法,这些算法对于不同的研究对象各有优缺点。在聚类算法当中,划分方法和层次方法是最常见的两类聚类技术,其中划分方法具有较高的执行效率,而层次方法在算法上比较符合数据的特性,所以相对于划分方法聚类的效果比较好。1
层次聚类算法和基于划分的KMea
s聚类算法是实际应用中聚类分析的支柱,算法简单、快速而且能有效地处理大数据集。层次聚类方法是通过将数据组织为若干组并形成一个相应的树来进行r