全球旧事资料 分类
的Scalablekmea
s20算法。同样的,科研人员在大规模数据集的聚类挖掘研究领域,也开展了分布式环境下并行聚类算法的研究工作,并且提出了很多并行聚类算法。I
derjitSDhillo
等人提出了基于分布式存储器MIMD的并行计算机AlexaVX2流水线模型,RISC上的并行Kmea
s算法
21
。Sa
pawatKa
tabutra等研究者提出了改进并行kmea
s算法。该算
法采用主从模型实现划分聚类算法的并行,算法中以是否满足所设置的覆盖参数作为判断终止的条件22。大规模数据集挖掘算法对企业管理和科学研究的重要性不言而喻,意识到这一点之后,国内很多研究人员和科研机构也相继开展了研究,并已取得一系列进展。浙江大学的科研人员提出了可以处理海量数据、基于伺机投影的Opportu
eProject算法,并通过实验对比,证明应用该算法挖掘各种规模与特征数据库的效率与可伸缩性都是比较优秀的。江苏大学的科研人员提出了基于频繁模式树的约束最大频繁项目集挖掘及其更新算法23、频繁序列模式更新算法24以及高效的关联规则挖掘算法25。湖南大学的杨翠明等提出了一种基于数据库分解的关联规则挖掘新算法26。这些算法都是进行大规模数据关联规则挖掘的有效算法。同样的,也有很多研究人员致力于研究分布式环境下并行关联规则挖掘,并在此基础之上建立了许多实用系统27。
f复旦大学的周水庚,周傲英等人在DBSCAN的基础之上提出了一种可以大幅提高大规模数据集处理效率28的快速聚类算法FDBSCAN。吉首大学的段明秀在CLARA的基础之上,结合自组织特征映射SOFM算法,提出了一种新型聚类算法,仿真实验验证了该算法的有效性29。在分布式环境下的并行聚类挖掘领域,国内科研人员相继提出了并行DBSCAN算法3031以及利用小波变换来生成自适应网格的方法对CLIQUE算法进行改进的新型并行高维聚类算法32。利用Google大规模分布式数据处理架构MapReduce的开源实现Hadoop,很多研究人员研究并实现了基于云计算的聚类算法,取得了大量的研究成果3334。国内科研人员由于起步较晚,因此在大规模数据挖掘领域虽然开展了大量研究工作,但是有待进行更多广泛和深入的研究。
5结语
I
ter
et的迅猛发展使得网络上的各种资源信息异常丰富,而数据的迅速增加与数据分析方法的滞后之问的矛盾也越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,而数据挖掘正是为了解决传统分析方法的小足,并针对大规模数据分析处理而出现的。给出了基于Web的远程数据传输与监控系统的r
好听全球资料 返回顶部