共线性越强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;⑥异常点的检查:主要包括特异点outher、高杠杆点highleveragepoi
ts以及强影响点i
flue
tialpoi
ts。特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有Pearso
残差、Devia
ce残差、杠杆度统计量H(hatmatrixdiag
osis)、Cook距离、DFBETA、Score检验统计量等。这五个指标中,Pearso
残差、Devia
ce残差可用来检查特异点,如果某观测值的残差值2,则可认为是一个特异点。杠杆度统计量H可用来发现高杠杆点,H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大即DFBETA指标值越大,表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。7.回归系数符号反常与主要变量选不进方程的原因:
f①②③④⑤⑥8.
存在多元共线性;有重要影响的因素未包括在内;某些变量个体间的差异很大;样本内突出点上数据误差大;变量的变化范围较小;样本数太少。
参数意义①Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。②Logistic回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢I
Lt1I
Lt三种方法结果基本一致。③④存在因素间交互作用时,Logistic回归系数的解释变得更r