全球旧事资料 分类
2011年数据挖掘与数据仓库考试题
1.(10分)讨论:下列每项活动是否是数据挖掘任务简单陈述你的理由。a根据性别划分公司的顾客。b根据可赢利性划分公司的顾客。c预测投一对骰子的结果。d使用历史记录预测某公司未来的股票价格。
2.(10分)列举3种数据挖掘功能,对每种举2个实际应用的例子。3.(10分)比较急切分类(如,判定树、贝叶斯、神经网络)相对于懒散分类(如,k
最临近、基于案例的推理)的优缺点。
4.(10分)假定你作为一个数据分析人员,受雇于一家移动通讯公司。通过一个例子说明打算如何使用数据挖掘技术为公司提供帮助。你的例子应包含问题描述,使用何种数据挖掘方法解决该问题,理由和预期效果(不需要定量分析)。
5.(10分)假设数据挖掘的任务是将如下的八个点(用xy代表位置)聚类为三个类。
A1210A225A384B158B275B364C112C249距离函数是Euclidea
函数。假设初始我们选择A1B1和C1为每个簇的中心,用kmea
s算法来给出
(a)在第一次循环执行后的三个簇中心
(b)最后的三个簇6.(10分)考虑下面的由BigU
iversity的学生数据库挖掘的关联规则
majorX”scie
ce”statusX”u
dergrad”
(1)
假定学校的学生人数(即,任务相关的元组数)为5000,其中56的在校本科生的专
业是科学,64的学生注册本科学位课程,70的学生主修科学scie
ce。
a计算规则1的支持度和置信度。
b考虑下面的规则
majorX”biology”statusX”u
dergrad”1780
(2)
假定主攻科学的学生30专业为biology。与规则1对比,你认为规则2新颖吗?解释你的结论。7.(15分)考虑为产品销售问题建立数据仓库。关注的主题是销售,用销售量、销售价和成本度量(由此可以计算销售金额和利润)。销售涉及销售的产品、时间、客户和销售代理。其中,产品用产品名称、产品类别、产品品牌等描述,时间用日、月、季、年描述,客户信息包括客户ID、客户名、送货地址(省、市、街道、门牌号)、帐号等信息,销售代理包括销售代理姓名、地区、省、市等信息
a给出每个维的概念分层。b画出该数据仓库的星型模式图。
c由基本方体开始,为列出河南省客户购买的、由国美家电2004年销售的、小天鹅洗衣机,应当执行哪些OLAP操作?
8.(15分)下表由雇员数据库的训练数据组成。数据已泛化。例如,年龄“31…35”表示31到35的之间。对于给定的行,cou
t表示departme
tstatusage和salary在该行上具
f有给定值的元组数。departme
tstatusagesalarycou
t
salr
好听全球资料 返回顶部