2l
L0l
L
(6)
为方程的显著性似然统计量,在大样本时,2近似服从2k分布。
12Logistic模型的分类及主要问题
根据研究设计的不同,Logistic回归通常分为成组资料的非条件Logistic回归和配对资料的条件Logistic回归两种大类。还兼具两分类和多分类之分,分组与未分组之分,有序与无序变量之分。具体如下:
两分类非条件Logistic回归:分组数据的Logistic回归,未分组数据的Logistic回归;多分类非条件Logistic回归:无序变量Logistic回归,无序变量Logistic回归;条件Logistic回归:11型、1M型和MN型Logistic回归。
关于Logistic回归,主要研究的内容包括:1.模型参数的估计及检验2.变量模型化及自变量的选择3.模型评价和预测问题4.模型应用
2Logistic模型的参数估计及算法实现
21两分类分组数据非条件Logistic回归
因变量反应变量分为两类,取值有两种,设事件发生记为y1,不发生记为y0,设自变量
Xx1x2xkT是分组数据,取有限的几个值;研究事件发生的概率Py1X与自变量X的关
系,其Logistic回归方程为:
l
PyPy
10
XX
0
1x1
k
xk
或
Py
1
X
e01x1kxk1e01x1kxk
例211分组数据1在一次住房展销会上,与房地产商签订初步购房意向书的有
325人,在随后的3个月时间内,只有一部分顾客购买了房屋。购买房屋的顾客记为1,否则记为0。以顾客的年家庭收入万元
作为自变量X对数据统计后如表211所示,建立Logistic回归模型。
f序号
123456789
表211购房分组数据年家庭收入签订意
X万元
向人数
15
25
25
32
35
58
45
52
55
43
65
39
75
28
85
21
95
15
实际购买人数
81326222022161210
例212药物疗效数据2为考察某药物疗效,随机抽取220例病人并分配到治疗组和对照组,治疗组采用治疗药物,对照组采用安慰剂。治疗一段时间后观察病人的疗效,得到表212数据。设y为疗效指标y1
有效,y0无效,x1为治疗组指标1为治疗组,0为对照组,x2为年龄组指标1为45岁,0为其他。
表212药物疗效数据
序号治疗分组x1年龄分组x2有疗效
无效
合计
1
1
2
1
3
0
4
0
1
32
18
50
0
40
20
60
1
21
31
52
0
18
40
58
上述两个例子数据都是经过统计加工后的分组数据,对此类数据进行Logistic回归,首先要明确应变量对应事件的发生概率如何确定和进行Logit变换,其次才能建立Logistic回归。为便于数据处理,我们
将此类数据的格式作个约定,排列格式为(组序号,自变量X,该组事件发生数,该组总例数)。
表213分组数r