全球旧事资料 分类
第一章统计案例
一、回归分析的基本思想及其初步应用
1、数学变量相关关系的定义:当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不
确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系
(1)按方向分类
正相关:两个变量的变化趋势相同,从散点图可以看出各点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大。
负相关:两个变量的变化趋势相反,从散点图可以看出各点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小。
正相关
负相关
(2)相关性系数r(在《必修3》中有介绍)
用相关系数r来衡量两个变量之间的相关关系



xi

x


yi

y

r
i1


2

2
xixyiy
i1
i1
不相关
f2、两变量之间的关系存在两种不同的类型1相关关系非确定性关系2函数关系确定性关系
3、回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。其基本步骤是:①画出两个变量的散点图;
②求回归直线方程;③并用回归直线方程进行预报。


4、回归直线方程:ybxa



xixyiy

xiyi
xy
bi1


xix2
i1

i1

xi2

2
x

i1




aybx
说明:1回归系数b0因为当b0时,相关系数r0这时不具有线性相关关系
2xy称为样本点的中心,回归直线必定经过样本点的中心
f例如:
f4、线性回归模型用ybxae来表示其中a和b为模型的未知参数e称为随机误差残差:eyiy


5、相关指数R2是用来刻画回归效果的,R2
1
i1

yiyi2
2
yiy
i1
R2越大,残差平方和越小,模型的拟合效果就越好。
二、独立性检验的基本思想及其初步应用
1、列联表
假设有两个分类变量X和Y,它们的值域分另为x1x2和y1y2,其样本频数列联表为:
y1
y2
总计
x1
a
b
ab
x2
c
d
cd
总计acbdabcd
2、随机变量K
2


a

b



c
adbc2dac


b

d

,其中


a

b

c

d
为样本容量
f3、独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验,并且能较精确地给出这种判断的
可靠程度。
(2)具体的做法是,由表中的数据算出随机变量K2的值。K2的值越大,说明“X与Y有关系”成立的可能性越大。下表k是观测值,概率P为犯错误的概率。
PK2k050
040
025
015
010
005
0025001000050001
k例如:
0455070813232072270638415024
6635
7879
10828
a4、利用列联表直接r
好听全球资料 返回顶部