全球旧事资料 分类
ei啦,预祝各位小主儿考出新高度一、描述统计数据(data)分为定性数据(qualitativeorcategoricaldata)与定量数据(qua
titativedate)。定性数据:按照类别进行划分,展示对象的属性;定量数据:展示对象的数值特征。图(graph):分为barchartpiechartdotplotstemplothistogramboxplot通过图形可以看出数据的分布特征:(1)对称(symmetric)(2)偏态(skewed)
左偏(skewedtotheleft)右偏(skewedtotheright)(3)集中趋势(4)异常值histogram的画法:(1)以个数作为高度(2)以百分比作为高度(3)以百分比作为面积。概率密度(probabilityde
sityfu
ctio
pdf)描绘以百分比作为面积的histogram的曲线。累积分布(cumulativedistributio
fu
ctio
cdf)以小于等于该数的数据所占百分比作为该数的纵坐标绘制出的曲线。数字特征(
umericalvalue)
f(1)描述集中趋势(2)描述离散趋势(3)描述位置(4)标准化变量(zscore)众数(mode)一组数据中出现次数最多的数;平均数(mea
)数据求和后除以数据个数。方差(varia
ce)与标准差(sta
darddeviatio
)衡量数据与平均值偏离程度平方和的平均值。标准化变量(zscore)计算方式是将原始数据减去平均数之后再除以标准差,用它可以展示不同度量单位数据的偏离程度。散点图(scatterplot)以一个变量作为横坐标、另一个变量作为纵坐标绘制出的图形,以散点的形式表现在坐标轴中。变量选用单位不同,会造成图形有差异。相关系数(li
earcorrelatio
coefficie
t)衡量两个量之间线性关系的指标,介于1和1之间,负数代表两个变量之间是反向变化的,正数代表两个变量之间是同向变化的,越靠近0代表线性关系越弱,越靠近1和1代表线性关系越强。它只能衡量线性关系,不能衡量非线性关系;只反应关系,不代表因果。回归(regressio
)寻找代表变量之间关系的数学表达式。线性回归假定变量之间存在一次函数的关系(形如ykxb)。此函数在坐标系中图像是一条直线,因此称作线性回归。残差(residual)真实值与估计值之间的差。残差图(residualplot)以一个变量作为横坐标、该变量所对应的残差为纵坐标绘制出的图形。若两变量之间存在线性关系,则残差图应为无规则的散点。最小二乘法(leastsquare)利用残差平方和最小求出直线斜率与截距(k和b)的方法。线性化(li
earity)将非线性关系转换为线性关系的方法,常用有对数变换、指数变换等。二、抽样方法总体(populatio
):研究对象的全体。样本(sample):
f总体中的一部分。参数r
好听全球资料 返回顶部