挖掘关联规则算法中是具有代表性的算法之一,它对数据挖掘研究有着潜移默化的影响。所谓关联规则算法指在数据集合中找到相关关系或者特殊的关联,从而找到频繁项集(出现频率比较高的属性集),然后再根据频繁项集将关联规则过程描述出来。为了尽量找到所有的频繁项集,Apriori算法会运用逐步迭代法搜索相关信息,H项集用于搜索(H1)项集,即逐层扫描各属性集合。在充分了解用户需求的前提下,Apriori算法将关联规则挖掘算法大致分为成2个子问题:
(1)算出属性集H中符合最小支持度的全部频繁项集。
(2)根据频繁项集生成符合最小置信度的全部关联规则。3
首先,数据库读入所有数据信息,获取候选项目1属性集的支持度,找到频繁单项集,并根据单项集合的结合生成候选项目2集合。如果候选集合规模较大,就再一次扫描数据库,获取候选项目2集合的支持度,并找到候选项目2的频繁单项集,从而再产生候选项目3集合。4通过类比,与最小支持度比较,产生下一个更小的频繁项目集合,一直到不能再产生新候选项目集合为止,所需要的数据就可以慢慢被准确的挖掘出来。
f龙源期刊网httpwwwqika
comc
4Apriori算法应用
Apriori算法有着广泛的应用领域,如消费市场,网络安全,医疗分析等。例如在商业领域中,可以很快分析出各商品价格之间的潜在关系,商家可以锁定一些目标客户,确定顾客的消费习惯,升级营销手段,从而减少一些广告预算同时增加收入。再比如医疗方面,医学数据规模庞大,而且错综复杂。利用该算法可以对一些病理报告和临床信息进行分析,找到它们之间的关联,可以为诊断提供理论依据。
5总
数据挖掘是一门高效处理数据的技术,如今在很多产业变得尤为重要。尽管Apriori算法推导过程相对简单并且在某些应用过程中具有很多优势,但是在实际挖掘操作中仍存在许多局限性。比如重复率较高,系统需要多次扫描数据库,并且每次都要全面扫描候选项集合,如果数据库的规模较大,扫描的次数和层数也会随之增多,计算时间便会延长,工作效率也会极大下降,开销方面也会增加。总之,数据挖掘技术还仍需改进,还有许多具有挑战性的关键问题需要深入探索。
【参考文献】
1陈超数据挖掘技术在自适应网站中的应用研究D浙江工业大学,2013
2史超数据挖掘中聚类算法的分析与实践J电脑与电信,2009(05):4244
3付向艳,胡枫Apriori算法在学生成绩管理系统中的应用J电脑迷,2018(12):186
4牛丽敏Apriori算法分析与改进综述N桂林电子科技大学r