成年人年龄和身体脂肪数据,得到如下结果:
a计算年龄和脂肪百分比的均值、中位数和标准差年龄均值232327273941474950
52545456575858606118836184644中位数5052251标准差方差的平方根开根号(1
∑Xi21
∑Xi2)开根号1182970441285脂肪百分比均值2878中位数307标准差899
精品文档
f精品文档b绘制年龄和脂肪百分比的盒图
c根据这两个属性绘制散布图各qq图
qq图d根据zscore规范化来规范化这两个属性(P46)
散布图
e计算相关系数皮尔逊积矩系数这两个变量是正相关还是负相关rab∑aiAbiBNσAσB(∑aibiNAB)NσAσB(∑aibi1846442878)
181285899082
相关系数是082。变量呈正相关。
33使用习题24给出的age数据回答下列问题:a使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述对于给
精品文档
f精品文档
定的数据,该技术的效果。
b如何确定数据中的离群点?
c对于数据光滑,还有哪些其他方法?
解答:
a使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述对于给定
的数据,该技术的效果。
用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤:
步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)
步骤2:将数据划分到大小为3的等频箱中。
箱1:13,15,16
箱2:16,19,20
箱3:20,21,22
箱4:22,25,25
箱5:25,25,30
箱6:33,33,35
箱7:35,35,35
箱8:36,40,45
箱9:46,52,70
步骤3:计算每个等频箱的算数均值。
步骤4:用各箱计算出的算数均值替换每箱中的每个值。
箱1:443,443,443
箱2:553,553,553
箱3:21,21,21
箱4:24,24,24
箱5:803,803,803箱6:1013,1013,1013
箱7:35,35,35
箱8:1213,1213,1213
箱9:56,56,56
b如何确定数据中的离群点?
聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视
为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区
分可能的离群点。这些可能的离群点能被用人工轻松的检验,而不必检查整个数据集。
c对于数据光滑,还有哪些其他方法?
其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,
等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以
使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分r