,weka支持稀疏数据表示,但我在运用apriori算法时有问题,先看一下weka的稀疏数据要求:稀疏数据和标准数据的其他部分都一样,唯一不同就是data后的数据记录,示例如下basketarff:
relatio
basket
attributefruitvegFT
attributefreshmeatFT
attributedairyFT
attributeca
edvegFT
attributeca
edmeatFT
attributefroze
mealFT
attributebeerFT
attributewi
eFT
attributesoftdri
kFT
attributefishFT
attributeco
fectio
eryFT
data
f1T2T10T
1T10T
3T5T6T9T
2T7T
1T7T9T
0T8T
6T
0T5T
0T9T
0T1T2T3T7T9T
0T9T
2T4T5T9T
可以看到
freshmeatdairyco
fectio
ery
freshmeat
co
fectio
ery
表示为了:
1T2T10T
1T10T
稀疏数据的表示格式为:属性列号空格值属性列号空格值,注意每条记录要用大括号,属性列号不是id号,属性列号是从0开始的,即第一个attribute后面的属性是第0个属性,T表示数据存在。
f规则挖取我们先用标准数据集
ormalBasketarff1试一下,weka的apriori算法和FPGrowth算法。1、安装好weka后,打开选择Explorer
2、打开文件
f3、选择关联规则挖掘,选择算法
4、设置参数
f参数主要是选择支持度lowerBou
dMi
Support,规则评价机制metriType(见上一篇)及对应的最小值,参数设置说明如下2:
1car如果设为真,则会挖掘类关联规则而不是全局关联规则。
2
classi
dex类属性索引。如果设置为1,最后的属性被当做类属性。
3的规则。
delta以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求
4
lowerBou
dMi
Support最小支持度下界。
5
metricType度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能
用置信度挖掘),提升度lift,杠杆率leverage,确信度co
victio
。
在Weka中设置了几个类似置信度co
fide
ce的度量来衡量规则的关联程度,它们分别是:
a
Lift:PABPAPBLift1时表示A和B独立。这个数越大1,越表明A和B
存在于一个购物篮中不是偶然现象有较强的关联度
fb切
LeveragePABPAPBLeverage0时A和B独立,Leverage越大A和B的关系越密
c
Co
victio
PAPBPAB(B表示B没有发生)Co
victio
也是用来衡量A和B
的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大A、B越关联。
6
mi
Mtric度量的最小值。
7
umRules要发现的规则数。
8
outputItemSets如果设置为真,会在结果中输出项集。
9
removeAllMissi
gCols移除全部为缺省值r