全球旧事资料 分类
二分类Logistic回归模型
在对资料进行统计分析时常遇到反应变量为分类变量的资料,那么,能否用类似于线性回归的模型来对这种资料进行分析呢?答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的Logistic回归模型。
第一节模型简介
一、模型入门
在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析,相信大家并不陌生,当要考察的影响因素较少,且也为分类
变量时,分析者常用列联表co
ti
ge
cyTable的形式对这种资料进行整理,并使用2检验
来进行分析,汉存在分类的混杂因素时,还可应用Ma
telHae
szel2检验进行统计学检验,
这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性,首先,它虽然可以控制若干个因素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中频数可能很小甚至为0,将导致检验结果的不可靠。最后,
2检验无法对连续性自变量的影响进行分析,而这将大大限制其应用范围,无疑是其致使
的缺陷。那么,能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分类因
变量为例来加以探讨,为了讨论方便,常定义出现阳性结果时反应变量取值为1,反之则取
值为0。例如当领导层有女性职员、下雨、痊愈时反应变量y1,而没有女性职员、未下
雨、未痊愈时反应变量y0。记出现阳性结果的频率为反应变量Py1。
首先,回顾一下标准的线性回归模型:
Y1x1mxm
如果对分类变量直接拟合,则实质上拟合的是发生概率,参照前面线性回归方程,很自然地会想到是否可以建立下面形式的回归模型:
P1x1mxm
显然,该模型可以描述当各自变量变化时,因变量的发生概率会怎样变化,可以满足分析的基本要求。实际上,统计学家们最早也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问题,对计算方法进行了改进,最终提出了加权最小二乘法来对该模型进行拟合,至今这种分析思路还偶有应用。
既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问题是这种分析思路所无法解决的:
(1)取值区间:上述模型右侧的取值范围,或者说应用上述模型进行预报的范围为整
个实数集,而模型的r
好听全球资料 返回顶部