全球旧事资料 分类
32独立性检验的基本思想及其初步应用
课前导引
问题导入
在现实生活中,存在大量分类变量,它们之间到底存在什么关系?两个变量之间是否有
影响,这是我们所关心的问题,解决这类问题可用独立性检验的基本思想
知识预览
1分类变量
对于性别变量,其取值为男和女两种这种变量的不同“值”表示个体所属的不同类别,
像这类变量称为分类变量
2列联表
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果
(单位:人):
吸烟与患肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
像上表这样列出的两个分类变量的频数表,称为列联表
3独立性检验
这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两
个分类变量的独立性检验
独立性检验的基本思想类似于反证法要确认“两个分类变量有关系”这一结论成立的可信
程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构
造的随机变量K2应该很小如果由观测数据计算得到的K2的观测值k很大,则在一定程度上
说明假设不合理
4判断结论成立的可能性的步骤
一般地,假设有两个分类变量X和Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称为2×2列联表)为:2×2列联表
y1
y2
总计
x1
a
b
ab
x2
c
d
cd
总计
ac
bd
abcd
若要推断的论述为
H1:“X与Y有关系”,
可以按如下步骤判断结论H1成立的可能性:(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种
判断无法精确地给出所得结论的可靠程度
①在三维柱形图中,主对角线上两个柱形高度的乘积ad与副对角线上的两个柱形高度的乘
积bc相差越大,H1成立的可能性就越大
②在二维条形图中,可以估计满足条件Xx1的个体中具有Yy1的个体所占的比例a,也ab
可以估计满足条件Xx2的个体中具有Yy1的个体所占的比例c两个比例的值相差越cd
f大,H1成立的可能性就越大(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断
的可靠程度具体做法是:根据观测数据计算由K2

adbc2
给出的检验
abcdacbd
随机变量K2的值k,其值越大,说明“X与Y有关系”成立的可能性越大当得到的观测数
据a,b,c,d都不小于5时,可以通过查阅下表来确定结论“X与Y有关系”的可信程度
PK2≥k05004002501501000500250010000r
好听全球资料 返回顶部