全球旧事资料 分类
第七章岭回归
1岭回归估计是在什么情况下提出的?答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。
2岭回归估计的定义及其统计思想是什么?答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,XX≈0时,我们设想给XX加上一个正常数矩阵kIk0那么XXkI接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计阵
仍然用X表示,定义为XXI1Xy,称为的岭回归估计,其中k称
为岭参数。
3选择岭参数k有哪几种主要方法?答:选择岭参数的几种常用方法有1岭迹法,2方差扩大因子法,3由残差平方和来确定k值。
4用岭回归方法选择自变量应遵从哪些基本原则?答:用岭回归方法来选择变量应遵从的原则有:
(1)在岭回归的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以直接
比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值
很小的自变量。
(2)当k值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增
加迅速趋于零。像这样的岭回归系数不稳定震动趋于零的自变量,我们也可以予以删
除。
(3)去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究
f竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。
5对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析。答:依题意,对逐步回归法所保留的三个自变量做岭回归分析。
程序为:
i
cludeCProgramFilesSPSSEVALRidgeregressio
spsridgeregdepye
terx1x2x5start00stop1i
c001岭迹图如下:
RIDGETRACE
4000000
x1
K
x2
3000000
K
x5
K
2000000
x1
K
x2
1000000
K
x5K
0000000
1000000
2000000000000020000040000060000080000100000120000
K
计算结果为:
f可以看到,变量x1、x2迅速由负变正,x5迅速减小,在00101之间各回归系数的岭估计基本稳定,重新做岭回归。岭迹图如下:
先取k008:语法命令如下:i
cludeCProgramFilesSPSSEVALRidgeregressio
spsridgeregdepye
terx1x2x5k008
运行结果如下:
f得到回r
好听全球资料 返回顶部