全球旧事资料 分类
变量,如本例,不同种族的变量赋值为1、2、3,但这仅是一个代码而已,并不意味着白人、黑人、其他民族间存在大小次序的关系,即并非代表产妇娩出低出生体重儿概率的logitP会按此顺序线性增加或减少。即使是有序多分类变量,如家庭收入分高、中、低三档,各类别间的差距也是无法准确衡量的,按编码数值来分析实际上就是强行规定为等距,这显然可能引入更大的误差。在以上情况时,就必须将原始的多分类变量转化为数个哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有明确而合理的实际意义。
8
f图3Categorical子对话框SPSS提供了Categorical按钮用于指定无序多分类自变量,如图3所示,对于取值有
个水平的自变量X,默认会产生
1个哑变量X(1),…,X(
1),此时以第
个水平为参照水平,SPSS会在分类变量编码矩阵中输出具体的赋值情况,矩阵中元素均为“0”的那一行表示以该自变量相对应的取值水平作为参照水平。例如种族race有三个水平,则SPSS会产生两个哑变量:
表10CategoricalVariablesCodi
gs
Parametercodi
g
种族
白人黑人其他种族
Freque
cy962667
11000000000
2000
1000000
在表10中可以看出,相应的两个哑变量含义如下:race11,白人;0,非白人race21,黑人;0,非黑人由于两个哑变量是同时使用的,而只有“其他种族”这一类在两个哑变量中取值都为0因此当同时使用时,实际上两个哑变量都是以“其他种族”作为参照水平。分别对上述哑变量的系数进行估计,就可以分别得知白人、黑人和参照水平(其他种族)的差异,而这两个哑变量的参数估计值之差就反映了白人和黑人间的差异。例如在本例中如果只分析种族的作用,则最终的结果参见表11和其他种族相比,白人低出生体重的风险较低,而黑人则风险较高,但两者均无统计学意义。如果将白人和黑人相比,则相应的系数为06360209=0845其OR值为exp0845043,白人的风险要比黑人小得多。显然,这两个类别之间有无这差异还需要进
9
f行检验,而这在表11中是无法直接体现的。
表11Variablesi
theEquatio

B
SE
Wald
df
Sig
ExpB
Step1arace
4922
2
085
race1
636
348
3345
1
067
529
race2
209
471
197
1
657
1232
Co
sta
t
519
253
4218
1
040
595
aVariablese
teredo
step1race
表11的输出中两个哑变量均无统计学意义,如果同一分类变量的不同哑变量出现了有些
有意义,有些无意义的情形,又该如何处理?首先,结果中会对分类变量先进行一个总体的
检验,例如在本例中种族的检验其P值为00r
好听全球资料 返回顶部