聚类分析在汽车行业的应用研究
孔尕平(1306122421)  杨欢欢(1306122427)
一、问题叙述
近年来,随着人们生活水平的提高,汽车逐渐进入了人们的日常生活中,因而带动了汽车行业的飞速发展。与此同时,市场上汽车种类繁多,衡量汽车质量的性能指标又多种多样,因此,本研究将通过多元统计方法,探究汽车类型与其性能指标之间的存在的内在联系,并且根据这些指标对各种汽车进行聚类,例如分为质量优、中、良三个等级,可以为广大汽车购买者及销售商提供一定的指导作用。
二、数据介绍
本数据主要来源于《19组数据及其说明》,记录了几种车型性能指标的数据,其中包括23个样本,每个样本主要用8个变量指标来描述,分别为economy,service,value,price,design,sport,safety,easyiness。
三、数据处理
在进行数据分析之前,首先通过描述统计分析方法,判断市场上汽车的性能指标的大体水平,主要从基本统计量(诸如均值、方差、标准差、极大/小值、偏度、峰度等)的计算和描述开始,并辅助于SPSS提供的图形功能,能够把握数据的基本特征和整体的分布特征。
在本案例中,通过比较不同车型(如A100,BMW3,CiAX等)性能指标的均值、极大/小值,可以从总体上判断哪些车型的性能较好,哪些车型的较差。
四、分析基本思路
聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。
我们对数据进行了基本的描述统计之后,接下来需要对23种车型进行聚类分析,大致分为3-5类,性能从差到优良。在本案例中,我们将采用两种方法进行聚类:一种是系统聚类法,另一种是K-均值法(快速聚类法)。
系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。 
系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。 
在本例中进行的是Q型聚类。 
类与类之间距离的计算方法主要有以下几种:
(1)最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值;
(2)最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值;
(3)组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值; 
(4)组内联接(Within-groups Linkage),是指把两类所有个体之间的距离都考虑在内; 
(5)重心距离法(Centroid clustering),是指两个类中心点之间的距离; 
(6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。
K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。 
快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。
五、分析过程
(一)描述性统计方法
在数据编辑窗口的主菜单中选择“分析(A)”    “描述统计”    “描述性分析”(如下图)
汽车类
打开如下对话框,将左侧框中的所有变量选入右侧框中,单击“选项”按钮,在“选项”对话框中选择所需要分析的统计量,包括均值、标准差、极大值、极小值等,如下图所示:
点击“确定”按钮之后,得到分析结果。
(二)聚类分析
1.系统聚类法
在数据编辑窗口的主菜单中选择“分析(A)”    “分类(F)”    “系统聚类(H)”,弹出“系统聚类分析”对话框,将“carmark”变量选入“标准个案(C)”中,将其他变量选入“变量框”中,如下图。在“分”单选框中选中“个案”,表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。
单击“统计量(S)”按钮,在“系统聚类分析:统计量”对话框中选择“合并进程表”、“相似性矩阵”,如下图所示,表示输出结果将包括这两项内容。
单击“绘制(T)”按钮,在“系统聚类分析:图”对话框中选择“树状图”、“冰柱”,如下图所示,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。
单击“方法(M)”按钮,弹出“系统聚类分析:方法”对话框,如下图所示。
2.K-均值聚类
在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“K-均值聚类(K)”,弹出“K均值聚类分析”对话框,将“地区”变量选入“个案标记依据(B)”中,将其他变量选入“变量框(V)”中,如图下图所示。在“方法”单选框中选中“迭代与分类”,在“聚类数”中填上“3”,表示聚类结果将分成3类。
单击“迭代(I)”按钮,弹出“K均值聚类分析:迭代”对话框,在“最大迭代次数(M)”中填上“10”(默认值),如下图所示,表示设定的最大迭代次数为10。