两步聚类分析法在汽车市场研究中的应用

管理观察 2008年9月

受到更多因素和变量的制约，而文化便是其中之一。因此跨国经营活动离不开跨文化管理，企业只有识别和理解文化差异，控制和解决文化冲突，并采取恰当的管理策略和措施，才能充分发挥跨文化优势，才能真正实现全球范围内的资本、原料、市场、技术和劳动力的最优配置，才能更

高效、更持久的进行跨国经营活动。◆

参考文献：

[1]李尔华.跨国公司经营与管理[M].北京：首都经济贸易大学出版社，2001.

[2]徐子健.国际企业管理[M].北京：中国财经出版社，2000.

[3]陈晓萍.跨文化管理[M].北京：清华大学出版

社，2005.

[4]庄恩平.跨文化商务沟通案例教程[M].上海：上海外语教育出版社，2004.

[5]苏国勋，张旅平，夏光.全球化：文化冲突与共生[M].北京：社会科学文献出版社，2006.

[6]王述祖.经济全球化与文化全球化[M].北京：中国财政经济出版社，2006.

两步聚类分析法在汽车市场研究中的应用

□黄钟颖

（苏州大学商学院，江苏苏州 215012）

摘要：本文介绍了两步聚类分析法的步骤，并在SPSS软件中尝试采用该方法对一组汽车产品数据进行了分析，探讨了该分析法的商业实践价值。关键词：两步聚类法；车型配置；属性重要性

一、引言

两步聚类分析法(Twostep Cluster Analysis)是分层聚类算法的一种形式，该算法对不同尺度类型的变量适用。现在，广泛应用在数据挖掘领域中。

两步聚类分析法作为一种数据探究工具，可以用来对一个未知数据集进行自然数据分组、聚类。两步聚类分析法所应用的数学算法与其他传统的聚类技术有显著的区别，它拥有如下三个有利特征：1、能用于处理基于分类变量和连续变量的聚类问题；2、能自动选择聚类数（number of clusters）；3、能高效处理大规模数据量的文件。

二、模型原理

在聚类模型中变量是相互独立的假设下，两步聚类分析法采用似然距离度量来处理分类变量和连续变量。并且，模型中的每项连续变量都假设为正态分布状态，每项分类变量都假设为多项分布状态。实证性内部测试表明该聚类方法对上述独立性假设和两类变量分布状态假设的违反具有相当强的鲁棒性，但分析模型中的上述假设满足程度仍需要注意到。

两步聚类分析方法的算法可以简单总结为以下两个步骤：

第一步，先要建立起聚类特征树（Cluster Features Tree），把数据集中的第一例记录（case）安置在由树根发起的一个叶结点上，该点包含了这条记录中所有的变量信息。然后，后续的每例记录将利用距离测量作为相似准则，根据它与现存结点的相似性，被分别加到现有的结点上或者形成一个新的结点。当一个结点包含了多例记录时，这个结点上这记录的信息变量是相同的，这些共点记录的变量信息就可以被归纳出来了。这样，所建立的聚类特征树就提供了该数据集的变量信息概要。

第二步，利用合并聚类算法对聚类特征树上的每个叶结点进行组合。采用合并

聚类算法可以产生一组不同聚类数的聚类方案。然后，根据聚类准则，Schwarz's Bayesian Criterion (BIC)或者Akaike Information Criterion (AIC)来对各种聚类方案进行比较选择，选定最佳聚类方案。

三、模型应用

汽车生产厂商需要有效的方法来评估当前市场情况，了解市场需要，到为市场所欢迎，有市场竞争能力的车型配置。本文将用两步聚类分析法分类汽车，一种车型所包含的变量在本文中定义为9项（本例中此9项都是连续变量）：销售价格（Price in thousands）、发动机大小(Engine size)、发动机马力(Horsepower)、轴距(Wheelbase)、车宽(Width)、车长(Length)、整车重量(Curb weight)、油箱容量(Fu

el Capacity)和燃油效率(Fuel efficiency)。这些变量不同的组合可以构建不同的车型，怎样的组合是市场欢迎的，并且影响产品类别的因素有怎样的主次关系，这些问题都是市场开发者关注的要点所在，利用两步聚类法对当前市场各主流车型进行分析，根据各车型配置的数据变量，自动对其聚类，就可帮助市场人员解决上述问题。

本文利用SPSS11.0数据文件car_sales.sav, 该数据文件中存有157例记录，即表示157种来自不同厂商的不同型号汽车信息。下面根据各项变量对此数据集进行分组，根据汽车售价和各种上述物理属性，用SPSS两步聚类分析工具对数据集进行聚类分析。见下表1

表1 示例样本

由SPSS的两步聚类分析工具生成的自动聚类表（Auto-clustering table）表明了最佳聚类数的选择过程。在软件自动处理中，每种可能的聚类数都用聚类标准（在这里是BIC）运算。BIC值越小表示该聚类模型越好，即相应聚类数越优。这样，最优的聚类方案就是那个BIC最小的情况。

然而，这里会出现这样的问题，BIC 将随着聚类数的增加而持续减少，但是由此而来的聚类方案更优化所带来的额外价值却无法抵消由于聚类数的增加而带来的麻烦。在这种状况下，要权衡BIC的变化和距离测量的变化来决定最优的聚类方案。一个好的方案，BIC变化率（Ratio of BIC Changes）和距离测量比（Ratio of Distance Measures）的值都要求较大。从下面表2中，可以得到在本数据中，最佳方案是

分3个类。

表2 Auto-Clustering

四、聚类分布

聚类分布表（表3）显示了每个类的频度。在此案157例数据中，5例数据记录由于某项或某几项变量数据缺失，而没有参与分析。在其余的152例中，分在聚类1（cluster 1）中的有62例，分在聚类2（cluster 2）中的有39例，另外的51例处在聚类3（cluster 3）.

表3 Cluster Distribution

为了对每个聚类中各项变量的均值和标准偏差有比较清晰的展示，可以在SPSS 中制作数据透视表，如下表4所示。

表4 Centroids

从上面数据透视表（表4）中可以发现，这些连续变量很好地把这三个聚类区分了出来。在聚类1中的车型是价格便宜的、车型较小和燃油使用经济性高的各例汽车。在聚类2中的车型是中等价格、车身重、油箱容积大、燃油经济性较差的各种车型。在聚类3中的是一些价格昂贵、车身体积大、燃油经济性中等的车型。

利用原数据资料（c a r_s a l e s. s a v）中标明的两大类车型（V e h i c l e type）：普通车（Automobile）和重型车（Truck）来观察这三个聚类的情况，从下面的聚类频度分布表（表5）可以进一步分出三个聚类的性质。聚类2

完全由truck类车型组成，聚类1和3则是

Automobile类车型组成的，值得注意的是

在聚类1中有一例外的Truck型车，核实原

文件可知此例车型为Toyota RAV4, 是一辆

重型越野车。由此可见，本文中两步聚类

分析法很有效地对样本数据进行了聚类，

所得3个聚类符合实际车型类别情况。

表5 Vehicle type

五、属性重要性

对于每一个聚类，SPSS都可以列出

各项变量对该聚类重要性的图表（如下图

1），各项变量沿Y轴以重要性递减排列。

竖向的虚线表示的是各项指标变量对本聚

类具有显著决定性影响的临界值。无论T

统计量是正值或是负值，只有当该项变量

的T统计量超过相应正负虚线标值时，此

变量才被认为是有显著影响的。

图1 聚类1的属性重要性

上面图1描述的是聚类1的各项变量重

要性情况，由于图中可见全部9项变量的T

统计量都超出虚线标出的临界值，所以可

以得出在聚类1中全部9项变量都对该聚类

的形成有重要作用。

负值的T统计量表示在此聚类中的此

项变量的值小于平均值，而正值的T统计

量则表示此类中的该变量值大于平均值。

由此，从图1可知，在聚类1中的车型燃油

经济性比平均情况高，而其他8项变量都

低于平均值。这条结论恰好符合前面表4

中显示的情况，再次肯定了相关结论。

在下图2中，可以看出车宽、车长、

发动机马力和销售价格对聚类2的形成没

有显著作用。

从下图3可以看到轴距和油箱容量同

样对聚类3的形成没有重要作用，并且燃

油效率的重要性也仅仅是刚达到临界值。

六、总结

以上是采用两步聚类分析法把数据

文件中的各种汽车类型进行了聚类分析，

从得到的3个聚类来看，聚类1的车型主要

汽车类为实用经济性比较强的小型汽车，聚类2

的车型为装载能力较强的卡车类车型，而

聚类3则是代表了高档舒适的车型。从实

际原始数据看，此3聚类较好符合实际情

况，聚类分析达到了预期效果。采用此类

分析方法可帮助市场工作者了解市场产品

主类别，掌握影响不同类别形成的主次要

因素，开发设计出符合市场不同区间的产

品。另外，以本案为例，如果实践者希望

获得更佳的聚类结果，还可以收集更多其

它属性变量数据，例如撞击实验结果等。

推广开来，此种两步聚类分析法可以供商

务实践者用在各种商业分析之中。◆

图2 聚类2的属性重要性

参考文献：

[1]TwoStep Cluster Analysis[Z/OL].www1.uni-

hamburg.de/RRZ/

Softwa re/SPSS/Algorith.120/twostep_cluster.pdf.

Aug.20 2008.

[2]李纲，毕振力.国产轿车市场竞争格局的聚类分

析[J].统计与决策，2007（22）.

[3]Michael J.A. Berry & Gordon S.Linoff..Data Mining

Techniques for Marketing, sales，and Customer Relationship

Management[M].Wiley Publishing,Inc. 2004，2.

[4]朱小虎，倪志伟，王超.客户关系管理中的数据

挖掘技术的应用探讨[J].价值工程，2007（12）.

管理观察 2008年9月

两步聚类分析法在汽车市场研究中的应用

发布评论取消回复

最近发表

热门文章

标签列表