全球旧事资料 分类
前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利用数据挖掘工具weka进行管理规则挖掘。weka数据集格式arffarff标准数据集简介weka的数据文件后缀为arff(AttributeRelatio
FileFormat,即属性关系文件格式),arff文件分为注释、关系名、属性名、数据域几大部分,注释用百分号开头,关系名用relatio
申明,属性用attribute什么,数据域用data开头,看这个示例数据集(安装weka后,可在weka的安装目录data下找到weather
umericarff):
weatherdataset
relatio
weather
attributeoutlooksu
yovercastrai
y
attributetemperature
umeric
attributehumidity
umeric
attributewi
dyTRUEFALSE
attributeplayyes
o
data
su
y8585FALSE
o
su
y8090TRUE
o
fovercast8386FALSEyes
rai
y7096FALSEyes
rai
y6880FALSEyes
rai
y6570TRUE
o
overcast6465TRUEyes
su
y7295FALSE
o
su
y6970FALSEyes
rai
y7580FALSEyes
su
y7570TRUEyes
overcast7290TRUEyes
overcast8175FALSEyes
rai
y7191TRUE
o
当数据是数值型,在属性名的后面加
umeric,如果是离散值(枚举值),就用一个大括号将值域列出来。data下一行后为数据记录,数据为矩阵形式,即每一个的数据元素个数相等,若有缺失值,就用问号表示。arff稀疏数据集我们做关联规则挖掘,比如购物篮分析,我们的购物清单数据肯定是相当稀疏的,超市的商品种类有上10000种,而每个人买东西只会买几种商品,这样如果用矩阵形式表示数据显然浪费了很多的存储空间,我们需要用稀疏数据表示,看我们的购物清单示例(baskettxt:
freshmeatdairyco
fectio
ery
freshmeat
co
fectio
ery
fca
edvegfroze
meal
beer
fish
dairy
wi
e
freshmeat
wi
e
fish
fruitvegsoftdri
k
beer
fruitvegfroze
meal
fruitveg
fish
fruitvegfreshmeat
dairy
ca
edveg
wi
e
fish
fruitveg
fish
dairyca
edmeatfroze
meal
fish
数据集的每一行表示一个去重后的购物清单,进行关联规则挖掘时,我们可以先把商品名字映射为id号,挖掘的过程只有id号就是了,到规则挖掘出来之后再转回商品名就是了,retailtxt是一个转化为id号的零售数据集,数据集的前面几行如下:
011721831942052167228239241025112612271328141516
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
38
39
47
48
38
39
48
49
50
51
52
53
54
55
56
57
58
f32
41
59
60
61
62
3
39
48
63
64
65
66
67
68
32
69
这个数据集的商品有16469个,一个购物的商品数目远少于商品中数目,因此要用稀疏数据表r
好听全球资料 返回顶部