类挖掘和关联规则挖掘这两个重要领域的算法研究中,并且已取得很多突出的成果。Goethals等一些学者指出在应用关联规则进行数据挖掘时,随着现实世界数据集规模的不断增大,内存往往成为其执行瓶颈,因而很多关联规则的数据挖掘工作无法进行6。为此,很多科研人员利用不同技术、从不同的角度对传统算法进行了优化。比如美国俄亥俄州立大学的GregoryBuehrer等研究者先对原先的大规模数据集进行了简单排序,并对操作系统虚拟内存实现机制进行分析,对原FPGROWTH算法在空间局部性和时间局部性两方面进行了优化,使之变为了对输入输出有意识的挖掘算法IOco
scious,发现在相同情况下该算法的执行效率比原算法提高了大约400倍,适合大规模序列挖掘以及图形挖掘7。在利用关联规则进行大规模数据集挖掘领域,科研人员不仅在单机环境下对原算法进行了优化,而且在分布式环境下开展了并行关联规则数据挖掘算法的研究。WilliamAMa
iatty和Zaki对分布式环境下的关联规则挖掘算法的软硬件基础架构进行了研究,提出了分布式数据挖掘的内容,为以后完整的并行挖掘方案的建立提供了指导意见8。IBM研究中心的RakeshAgrawal和Joh
CShafer实现了分布式环境下Cou
tDistributio
DataDistributio
以及Ca
didateDistributio
这三种并行关联规则挖掘算法。他们对各种大规模数据集进行实验,并且得出结论三种算法中的Cou
tDistributio
算法是并行关联
f规则挖掘算法中比较好的选择9。Sea
Chester和JeffmCrowe利用了Google研发出的大规模分布式数据处理架构MapReduce研发了ParallelFP_Growth算法,有较高执行效率。另外,他们还对挖掘过程中遇到的问题以及相应的解决方案进行了深入研究10。国外对并行关联规则挖掘算法的研究成果很多,为后人积累了大量成功的经验及技术
1114
。在大规模数据聚类挖掘研究领域,很多科研人员也进行了大量研究工作。R
Ramakrish
a
等人提出了BIRCH算法
15
,MEster等人提出了DBSCAN
1718
16
算法,
RNg以及JHa
提出了CLARAClusterLARgerApplicatio
算法
,这些都是针
对该研究领域有效的挖掘算法。有研究人员对采样后的较小规模的数据集进行聚类,从统计学的角度对原先的数据集采样,比如Ra
domkmea
s算法。此外,有研究人员提出了o
li
eKmea
sOKM19算法来针对连续积累不断增加的大规模数据集。微软研究院的一些科研人员以前人的研究为基础,研究了大规模数据集的聚类架构并且提出了利用三元组保存聚类过程中的统计信息能够一部分一部分地完成整个数据集的聚类工作r