全球旧事资料 分类
用pytho
进行数据分析
一、样本集本样本集来源于某高中某班78位同学的一次月考的语文成绩。因为每位同学的成绩都
是独立的随机变量,遂可以保证得到的观测值也是独立且随机的样本如下:
grades131131127123126129116114115116123122118121126121126121111119124124121116114116116118112109114116116118112109114110114110113117113121105127110105111112104103130102118101112109107941071061051018595979983878279999078867566
二、数据分析1中心位置(均值、中位数、众数)
数据的中心位置是我们最容易想到的数据特征。借由中心位置,我们可以知道数据的一个平均情况,如果要对新数据进行预测,那么平均情况是非常直观地选择。数据的中心位置可分为均值(Mea
),中位数(Media
),众数(Mode)。其中均值和中位数用于定量的数据,众数用于定性的数据。
均值:利用pytho
编写求平均值的函数很容易得到本次样本的平均值
得到本次样本均值为1099中位数:113众数:116
2频数分析21频数分布直方图
柱状图是以柱的高度来指代某种类型的频数,使用Matplotlib对成绩这一定性变量绘制柱状图的代码如下:
f这里我主要使用matplotlibpyplotasplt上的bar()函数画出直方图。这里所使用的text和title方法是用来给图形加上标注和题目的。运行程序可得到如下频率分布直方图:
这里我将数据分为八组:60707080809090100100110110120120130130140;每组对应中点为:667738469561052114412391307每组对应频率:001004006008018038021004
从该频率直方图我们可以看出该班成绩主要分布在100130区间,当然也存在130多的高分和60多的低分。总体成绩还算不错,低于均分的同学要继续努力。22相对频率折线图这里我主要使用matplotlibpyplotasplt上的plot()函数画出折线图。程序代码如下:
f运行程序可得到如下折线图:
通过折线图我们可以更加清楚的明白这个班级的成绩分布,高于一百分的同学占绝大多数,而低于一百分的也占有一定的比例。23箱须图中位数:113上四分位数:Q1124下四分位数:Q2105四分位数差IQR19此时可以绘制该班的箱须图进行成绩分析,这里使用Matplotlib中的boxplot绘制关于身高的箱形图,程序如下:
f运行程序后可以得到该班关于成绩的箱须图:
从该箱须图也可以清楚的看出本班的成绩分布,以及中位数所在的位置所在。由于箱须图的主要目的用来比较,而这里只有一组数据,就不进行比较了。但是仍要注意的是在下边缘以外的异常值点,这些同学的成绩在本班处于垫底,应格外注意这r
好听全球资料 返回顶部