筛选。由于饭店部分属性之间具有相关性,本文采用因子分析法挖掘其“根本属性”,之后对饭店数据进
321
123
李蓉李宇基与主成分分析与聚类分析方法的我国西部区域划分问题的研究科技广场李新蕊主成分分析、因子分析、聚类分析的比较与应用山东教育学院学报杨善林kmea
s算法中的k值优化问题研究系统工程理论与实践
1
f行聚类,分析得到每类客户评价得分最高的饭店特征。
二方法论
本文选取UCI上的数据(包括饭店、客户、评价得分等信息),旨在通过划分客户群体并分析每一类客户对不同饭店的评价得分,得出每一类顾客选择饭店的倾向,即特定类别客户的喜好和评价饭店时最看重的因素。将结论应用于指导饭店发展路线与目标客户群间的战略匹配。具体方法步骤如下:1根据详细的客户信息对客户进行Kmea
s聚类,总结出每一类客户的显著特点2客户偏好的研究饭店的多个属性之间存在相互影响的关系,因此本文在研究饭店特点采用因子分析法,将相同本质的属性归入一个因子,既可减少变量的数目,又能得出能够表征饭店属性的影响因子。在因子分析的基础上,对同类顾客所评价的饭店进行聚类分析,得到每类顾客所选饭店的种类。然后分析比较各类饭店的特点,选出影响最大的因子(依据系数绝对值大小来判断),参照因子旋转矩阵后即可得到对顾客评分影响最大的饭店属性,从而分析出特定类别顾客在选择、评价一家饭店时的偏好。
顾客饭店
聚类分析
因子分析
顾客类型
可代表饭店各属性的因子
聚类分析
饭店类型(评价者的顾客类型相同)
顾客偏好
Figure1研究框架
三研究过程
一顾客聚类分析:在顾客信息的属性中删去UserID,其余属性作为输入字段进行K均值聚类。模型中的K值默认为5,但是分类结果中不同类型间的差异较小,随即降低K值进行尝试。考虑到顾客评
2
f分分为012三个等级,而且K3时分类结果间的差异较显著,因此将顾客分为三类。Cluster1:此类顾客人数最多,出生日期在1986年之后,绝大多数人学生,其次是工作者,主要同家人一起就餐;基本不饮酒;兴趣点主要为tech
ology;绝大多数未婚,性格为thriftyprotectorCatholic为主;基本不吸烟;公交Cluster2:此类顾客人数最少,年龄最大,不愿多透漏个人信息(数据中有大量缺失值)。Cluster3:此类顾客人数居中,出生年份在1981左右,主要为学生、工作者多与朋友一起就餐,大多属于socialdri
ker。多数人是单身,但是单身比率高于类型1,性格为hardworker,carow
er为主。聚类分析结果如下图所示:
r