全球旧事资料 分类
Logistic回归模型
1Logistic回归模型的基本知识
11Logistic模型简介
主要应用在研究某些现象发生的概率p,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p与那些因素有关。显然作为概率值,一定有0p1,因此很难用线性模型描述概率p与自变量的关系,另外如果p接近两个极端值,此时一般方法难以较好地反映p的微小变化。为此在构建p与自变量关系的模型时,变换一下思路,不直接研究p,而是研究p的一个严格单调函数Gp,并要求Gp在p
接近两端值时对其微小变化很敏感。于是Logit变换被提出来:
Logitpl
p1p
(1)
其中当p从01时,Logitp从,这个变化范围在模型数据处理上带来很大的方便,
解决了上述面临的难题。另外从函数的变形可得如下等价的公式:
Logitpl
pTXpeTX
1p
1eTX
(2)
模型2的基本要求是,因变量(y)是个二元变量,仅取0或1两个值,而因变量取1的概率Py1X
就是模型要研究的对象。而X1x1x2xkT,其中xi表示影响y的第i个因素,它可以是定性变量也可以是定量变量,01kT。为此模型2可以表述成:
l

p1p

0

1x1

kxk

01x1kxk
p1ee01x1kxk
(3)
显然Ey

p,故上述模型表明l
Ey1Ey

x1x2xk
的线性函数。此时我们称满足上面条件
的回归方程为Logistic线性回归。Logistic线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从
伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则残差平方和最小,Logistic变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。
定义1称事件发生与不发生的概率比为优势比比数比oddsratio简称OR,形式上表示为
ORpe01x1kxk1p
(4)
定义2Logistic回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称
2l
L为估计值的拟合似然度,该值越小越好,如果模型完全拟合,则似然值L为1,而拟合似
f然度达到最小,值为0。其中l
L表示的对数似然函数值。
1
定义3记Var为估计值的方差协方差矩阵,SVar2为的标准差矩阵,则称
wi
iSii
2i
12k
(5)
为i的Wald统计量,在大样本时,wi近似服从21分布,通过它实现对系数的显著性检验。
定义4假定方程中只有常数项0,即各变量的系数均为0,此时称
2r
好听全球资料 返回顶部