数据仓库包含20个维,每个维有5级粒度。(a)用户感兴趣的主要是4个特定的维,每维有3个上卷、下钻频繁访问的级。你如何设计数据立方结构,有效地对此予以支持?(b)用户时常想由一两个特定的维钻透数据立方体,到原始数据。你如何支持这一特征?211假定基本立方体有三个维A,B,C,其单元数如下:A1000000,B100,C1000。假定分块将每维分成10部分。(a)假定每维只有一层,画出完整的立方体的格。(b)如果每个立方单元存放一个4字节的度量,若方是稠密的,所计算的立方体有多大?(c)指出立方体中空间需求量最小的块计算次序,并对计算2-维平面所需要的内存空间计算空间量。3.1数据的质量可以用精确性,完整性和一致性来评估。提出两种数据质量的其他尺度。3.2在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。3.3假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,
f16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70a使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。评论对于给定的数据,该技术的效果b你怎样确定数据中的孤立点?c对于数据平滑,还有那些其他方法?3.4讨论数据集成需要考虑的问题。1模式识别:这主要是实体识别问题2冗余:一个属性是冗余的,即它能由另一个表导出,如果属性或唯的命名不一致,也可能导致冗余,可以用相关分析来检测3数据值冲突的检测与处理:有些属性因表示比例或编码不同,会导致属性不同3.5使用习题3。3给出的age数据,回答以下问题:a使用最小最大规范化,将age值35转换到0。0,1。0区间b使用zscore规范化转换age值35,其中age的标准差为12。94年c使用小数定标规范化转换age值35。d指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。3.6使用流程图概述如下属性子集选择过程a逐步向前选择b逐步向后删除c逐步向前选择和逐步向后删除的结合37使用习题33给出的age数据a画一个宽度为10的等宽直方图。b为如下每种选样技术勾画例子SRSWORSRSWR聚类选择,分层选择。使用长度为5的样本和层