一、填空题(15分)
1数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。
2元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。
3OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。
4基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。
5ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。
二、多项选择题(10分)
6在数据挖掘的分析方法中,直接数据挖掘包括(ACD)
A分类
B关联
C估值
D预言
7数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)
A数据抽取B数据转换
C数据加载
D数据稽核
8数据分类的评价准则包括(ABCD)
A精确度B查全率和查准率CFMeasureD几何均值
9层次聚类方法包括(BC)
A划分聚类方法B凝聚型层次聚类方法C分解型层次聚类方法D基于密度聚类方法
10贝叶斯网络由两部分组成,分别是(AD)
A网络结构B先验概率C后验概率D条件概率表
三、计算题(30分)
11一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmi
40,co
fmi
40,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)
事务
T1T2T3
项目
面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱
事务
T4T5
项目
啤酒、面包啤酒、牛奶
解:(1)由I面包、果冻、花生酱、牛奶、啤酒的所有项目直接产生1候选C1,计算其支持度,取出支持度小于supmi
的项集,形成1频繁集L1,如下表所示:
f项集C1
面包花生酱牛奶啤酒
支持度
4535
2525
项集L1
面包花生酱牛奶啤酒
支持度
45352525
2组合连接L1中的各项目,产生2候选集C2,计算其支持度,取出支持度小于supmi
的项集,形成2频繁集L2,如下表所示:
项集C2面包、花生酱
支持度35
项集L2面包、花生酱
支持度35
至此,所有频繁集都被找到,算法结束,
所以,co
fide
ce(面包→花生酱)(45)(35)43co
fmi
co
fide
ce(花生酱→面包)(35)(45)34co
fmi
所以,关联规则面包→花生酱、花生酱→面包均是强关联规则。
12给定以下数据集(2,4,10,12,15,3,21),进行KMea
s聚r