基于关联规则挖掘的weka数据挖掘应用摘要:关联规则挖掘作为数据挖掘的一个重要方法,在许多数据挖掘领域得到应用。本文阐述了关联规则挖掘以及其关键算法,并针对具体的实例,描述了数据挖掘工具weka挖掘关联规则的过程。关键词:数据挖掘;关联规则挖掘;weka中图分类号:tp31113文献标识码:a文章编号:10079599(2012)190000021引言近年来,随着数据库应用和互联网的快速发展和普及,人们渐渐体会到到数据海洋的无边无际。面对如此巨大的数据资源,人们迫切需要一种新的技术和工具将这些数据转换成有用的知识与信息资源。数据挖掘(datami
i
g,简称dm)作为20世纪末刚兴起的数据智能分析技术,由于其广泛的应用前景而备受关注,它可以从数据库,或数据仓库,以及其它各类型的数据源中,自动抽取或发现有用的知识和信息资源。数据挖掘是一个多领域交叉的研究和应用领域,其中包括了:数据库技术、人工智能、知识获取、知识系统、神经网络、信息检索等。数据挖掘的有关技术和方法包括:数据预处理、定性概念归纳、决策树分类方法、关联规则挖掘等。关联规则挖掘作为数据挖掘的重要方法,在许多数据挖掘应用领域得到运用。2关联规则挖掘
f关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。例如:从大量的商业交易记录中发现有价值的关联知识就可帮助进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策。
21关联规则挖掘的基本概念设ii1,i2,,i
为数据项集合,d为与任务相关的数据集合,也就是一个交易数据库;其中的每个交易t是一个数据项子集,即ti;每个交易均包含一个识别编号tid,设a为一个数据项集合,当且仅当at时,称交易t包含a。一个关联规则就是具有“ab”形式的蕴含式;其中有ai,bi且a∩b。规则ab在交易数据集d中成立,且具有s支持度和c信任度。这也就是意味着交易数据集中有d中有s比例的交易t包含a∪b数据项;且交易数据集d中有s比例的交易t满足“若包含a就包含b的条件”。具体描述是:support(ab)p(a∪b),co
fide
ce(ab)p(a│b)。满足最小支持度阈值和最小信任度阈值的关联规则就称为强规则(stro
g)。通常为方便起见,都将最小支持度阈值简写为mi
_sup;最小信任度阈值简写为mi
_co
f。这两个阈值均在0到100之间。一个数据项的集合就称为项集(iter
set);一个包含k个数据项的项集就称为k项集。因此集合(computer,software)就是一个2项集。一个项集r