模式匹配、和基于相似性的数据分析
23假设给定的数据集的值已经分组为区间。区间和对应的频率如下。
—————————————————————————————————————
年龄
频率
—————————————————————————————————————
15
200
515
450
1520
300
2050
1500
5080
700
80110
44
—————————————————————————————————————
计算数据的近似中位数值。
解答:先判定中位数区间:N2004503001500700443194;N21597
∵200450300950159724509501500;
精品文档
f精品文档
∴2050对应中位数区间。
∴media
3297岁。22假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
答:a该数据的均值是什么?中位数是什么?均值13151616192020212222252525253033333535353536404546527027
2996
中位数应是第14个即x1425Q2。b该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。
这个数集的众数有两个:25和35发生在同样最高的频率处因此是双峰众数。c数据的中列数是什么?
数据的中列数是最大数和最小数的均值。即:midra
ge70132415。d你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?
数据集的第一个四分位数应发生在25处,即在N14(271)47处。所以:Q120。而第三个四分位数应发生在75处即在3×N1421处。所以:Q335e给出数据的五数概括。
一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总并且这些数据是:13、20、25、35、70。f画出数据的盒图。
g分位数分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。
这样他可以展示所有数的分位数信息而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数分位数图用纵轴表示一种单变量分布的分位数用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域且点按照两种分布分位数值展示。一条线(yx)可画到图中以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。反之对落在该线以下的点则低。24假设医院检测随机选择的18个r