任务6市场调查数据分析
61常用的统计方法1、变量类型
在编码时我们已经提到过,问卷的每一个题目都可以看做是一个变量,由于所提问题的性质不同,对应的变量类别就不一样,变量的类别由低到高依次为:定类变量、定序变量、定距变量(定比变量)。(1)定类变量:变量的不同取值仅仅代表了不同类的事物,这样的变量叫定类变量。问卷的人口特征中最常使用的问题,而调查被访对象的“性别”,就是定类变量。对于定类变量,加减乘除等运算是没有实际意义的。(2)定序变量:变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,这样的变量叫定序变量。问卷的人口特征中最常使用的问题“教育程度”,以及态度量表题目等都是定序变量,定序变量的值之间可以比较大小,或者有强弱顺序,但两个值的差一般没有什么实际意义。(3)定距变量:变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。有时问卷在调查被访者的“年龄”和“每月平均收入”,都是定距变量。
定比变量与定距变量在市场调查中一般不加以区分,它们的差别在于,定距变量取值为“0”时,不表示“没有”,仅仅是取值为0。定比变量取值为“0”时,则表示“没有”。上面举的“年龄”、“每月平均收入”也是定比变量,因为它们的“0”值都表示“没有”。而像“温度”这样的变量中的“0”值并不表示“没有”,而是表示“0℃”这一特定温度,这样的变量是定距变量,但不是定比变量。
在统计分析时,对不同类型的变量要选用不同的方法。一般的原则是适于较低类别变量的统计方法也可用于较高类别的变量,反之则不行。比如适用于定类变量的分析方法,同时也可用于其他类别的变量,反过来适于定距变量的分析方法,一般不能用于其他类别的变量。
由于市场调查中的定类、定序变量较多,为了能够使用更多的统计方法,常常将有些定类和定序变量通过某些转换变成定距变量或近似看成定距变量,这样只适用于定距变量的统计方法,就可以用于这些定类和定序变量了。对于缺失值的处理
在数据整理中,经常会碰到缺失值的问题,缺失值的数量过多的话,说明数据收集过程中存在着严重的问题。可以接受的标准是,缺失值的数量在10以下。处理缺失值的方法有下面4种:
(1)用一个样本统计量的值代替缺失值缺失值可以使用一个样本的统计量去代替,最典型的做法就是使用该变量的样本平均值。由于该变量的平均值保持不变,其他的统计量如标准差、相关系数等都不会受到影r