全球旧事资料 分类
左边的取值范围为0P1,二者并不相符。模型本身不能
1
f保证在自变量的各种组合下,因变量的估计值仍限制在0~1内,因此可能分析者会得到这种荒唐的结论:男性、30岁、病情较轻的患者被治愈的概率是300!研究者当然可以将此结果等价于100可以治愈,但是从数理统计的角度讲,这种模型显然是极不严谨的。
(2)曲线关联:根据大量的观察,反应变量P与自变量的关系通常不是直线关系,而是S型曲线关系。这里以收入水平和购车概率的关系来加以说明,当收入非常低时,收入的增加对购买概率影响很小;但是在收入达到某一阈值时,购买概率会随着收入的增加而迅速增加;在购买概率达到一定水平,绝大部分在该收入水平的人都会购车时,收入增加的影响又会逐渐减弱。如果用图形来表示,则如图1所示。显然,线性关联是线性回归中至关重要的一个前提假设,而在上述模型中这一假设是明显无法满足的。
图1S型曲线图
以上问题促使统计学家们不得不寻求新的解决思路,如同在曲线回归中,往往采用变
量变换,使得曲线直线化,然后再进行直线回归方程的拟合。那么,能否考虑对所预测的因
变量加以变换,以使得以上矛盾得以解决?基于这一思想,又有一大批统计学家在寻找合适
的变换函数。终于,在1970年,Cox引入了以前用于人口学领域的Logit变换Logit
Tra
sformatio
,成功地解决了上述问题。
那么,什么是Logit变换呢?通常的把出现某种结果的概率与不出现的概率之比称为比
值odds,国内也译为优势、比数,即Odds,取其对数l
Oddsl

1
1
这就是logit变换。下面来看一下该变换是如何解决上述两个问题的,首先是因变量取值区
间的变化,概率是以05为对称点,分布在0~1的范围内的,而相应的logitP的大小为:
0
logitl
01∞
05logitl
05050
1
logitl
10∞
显然,通过变换,Logit的取值范围就被扩展为以0为对称点的整个实数域,这使得在任何自变量取值下,对值的预测均有实际意义。其次,大量实践证明,Logit往往和
自变量呈线性关系,换言之,概率和自变量间关系的S形曲线往往就符合logit函数关系,
从而可以通过该变换将曲线直线化。因此,只需要以Logit为因变量,建立包含p个自
变量的logistic回归模型如下:
2
flogitP01x1pxp
以上即为logistic回归模型。由上式可推得:
Pexp01x1pxp1exp01x1pxp
11P
1exp01x1pxp
上面三个方程式相互等价。通过大量的分析实践,发现logistic回归模型可以很好地满足对分类数据的r
好听全球资料 返回顶部