全球旧事资料 分类
§7
消费分布规律的分类
为研究辽宁、浙江、河南、甘肃、青海5省份在某年城镇居民生活消费的分布规律,需要用调查资料对这5个省分类数据见下表:指标省份辽宁浙江河南甘肃青海X17907689429161006X239775037279327982864X384911358209011052X4129413308149321005X519271925161715991618X611051459942910839X7204275155182196X81329148797611351081
其中,X1:人均粮食支出;X2:人均副食品支出;X3:人均烟、酒、茶支出;X4:人均其它副食品支出;X5:人均衣着商品支出;X6:人均日用品支出;X7:人均燃料支出;X8:人均非商品支出在科学研究、生产实践、社会生活中,经常会遇到分类的问题例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中,要考虑哪些经济指标反映的是同一种经济特征;在产品质量管理中,要根据各产品的某些重要指标而将其分为一等品,二等品等等这些问题可以用聚类分析方法来解决聚类分析的研究内容包括两个方面,一是对样品进行分类,称为Q型聚类法,使用的统计量是样品间的距离;二是对变量进行分类,称为R型聚类法,使用的统计量是变量间的相似系数设共有
个样品,每个样品xi有p个变量,它们的观测值可以表示为
xix1ix2ixpii12
一、样品间的距离下面介绍在聚类分析中常用的几种定义样品xi与样品xj间的距离
1、Mi
kowski距离
dxixjxkixkj
k1
p
m
1m
2、绝对值距离
dxixjxkixkj
k1
p
3、欧氏距离
dxixjxkixkj2
k1
p
21
二、变量间的相似系数相似系数越接近1,说明变量间的关联程度越好常用的变量间的相似系数有1、夹角余弦
14
frij
x
k1
k1


ik
xjk

xik2xjk2
k1
2、相关系数
rij
x
k1


ik
xixjkxj

x
k1


ik
xi2xjkxj2
k1
值得注意的是,当指标的测量值相差较大时,直接使用以上各式计算距离或相似系数常使数值较小的变量失去作用,为此需应先对数据进行标准化,然后再用标准化的数据来计算标准化的具体方法是:
xki
xkixki12
k12psk
其中
xk
1
1
xkiskxkixk2k12p
i1
1i1
三、类与类之间的距离用Gp和Gq分别代表两个类,它们所包含的样品个数分别记为
p和
q,类Gp和Gq之间的距离记为DGpGq下面给出三种最r
好听全球资料 返回顶部