建模需求,因此目前它已经成为了分类因变量的标准建模方法。
通过上面的讨论,可以很容易地理解二分类logistic回归模型对资料的要求是:(1)反应变量为二分类的分类变量或是某事件的发生率。
(2)自变量与Logit之间为线性关系。
(3)残差合计为0,且服从二项分布。(4)各观测值间相互独立。由于因变量为二分类,所以logistic回归模型的误差应当服从二项分布,而不是正态分布。因此,该模型实际上不应当使用以前的最小二乘法进行参数估计,上次均使用最大似然法来解决方程的估计和检验问题。
二、一些基本概念
由于使用了logit变换,Logistic模型中的参数含义略显复杂,但有很好的实用价值,为此现对一些基本概念加以解释。
1优势比如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值(odds),即
oddsP。两个比值之比称为优势比(oddsRatio,简称OR)。首先考察OR的特性:1P
若P1P2,则odds1
P11P1
P21P2
odds2
若P1P2,则odds1
P11P1
P21P2
odds2
若P1P2,则odds1
P11P1
P21P2
odds2
显然,OR是否大于1可以用作两种情形下发生概率大小的比较。2Logistic回归系数的意义
从数学上讲,和多元回归中系数的解释并无不同,代表x改变一个单位时logitP的
平均改变量,但由于odds的自然对数即为logit变换,因此Logistic回归模型中的系数和OR有着直接的变换关系,使得Logistic回归系数有更加贴近实际的解释,从而也使得该模型得到了广泛的应用。下面用一个实例加以说明:
以4格表资料为例具体说明各回归系数的意义:
3
f治疗方法
treat新疗法(=1)传统疗法(=0)
合计
表14格表资料
治疗结果(outcome)
治愈(=1)未治愈(=0)
60a
21c
42b
27d
102
48
合计
8169130
治愈率
740760876800
该资料如果拟合Logistic回归模型,则结果如下(操作步骤详见后述):
LogitPoutcome101treat04420608treat
(1)常数项:表示自变量取全为0(称基线状态)时,比数Y1与Y0的概率之比
的自然对数值,本例中为00442l
42692769l
4227l
bd,
即传统疗法组的治愈率与未治愈率之比的自然对数值。在不同的研究设计中,常数项的具体含义可能不同,如基线状态下个体患病率、基线个体发病率、基线状态中病例所占比例等,但这些数值的大小研究者一般并不关心。
(2)各自变最的回归系数:ii1p表示自变量xi每改变一个单位,优势比的
自然对数值改变量,而expi即OR值,表示自变量xi每变化一个单位,阳性结果出现概
率与不出r