SPSS方差分析对汽车销量调查应用
杨晓萌
摘要:方差分析是市场调查中常采用的一种方法。如何使用统计分析软件进行方差分析来实现对研究结果的快递和科学的处理,获得正确的结论,是市场调查中重要的一环。本文通过实例介绍了如何使用SPSS数据分析进行方差分析的方法;实现了数据分析和处理的快捷、准确和直观;与Excel相比,SPSS的统计分析功能更为强大,既有利于提高数据处理的效率,又降低了实验的成本。
关键词:SPSS;方差分析;一维方差分析;单因素变量多因素分析;协方差分析Application of SPSS in ANOVA of car sales
Yang Xiao-meng
ABSTRACT: ANOVA is an effective method used in market survey. It is important for market survey to rapidly make a correct conclusion from the raw with ANOVA through using the statistics software. This paper introduced a method to do ANOVA for data analysis by SPSS, which could make data processing much faster, more accurate and visible. Comparison to Excel, SPSS was more powerful, which was beneficial to improve the efficiency of data processing as well as reduce the experimental cost.
Key words: SPSS; ANOVA; One-Way ANOVA; Univariate; Covariance analysis
前言
SPSS是“社会科学统计软件包”(Statistical Package for the Social Science)的简称,是一种集成化的计算机数据处理应用软件,是目前世界上流行的三大统计软件之一,除了适用于社会科学之外,还适用于自然科学各个领域的统计分析。将其应用于市场调查统计分析的过程,能使研究者以客观的态度,通过对受众的系统提问,收集并分析有关研究数据,以描述、解释或预测问卷调查内容的现象及其各相关因素之间的关系。在这个方面,SPSS技术的应用为市场调查实证研究中的定量分析提供了支持与保障,特别是它的易用、易学、功能强大等特点是其他方法所无法替代的。本文通过运用SPSS的数据管理方法以及利用SPSS数据分析工具进行方差分析来对汽车的销量进行调查。
1、SPSS方差分析的特点
方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。
由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。
经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。
多个样本均数间两两比较:多个样本均数间两两比较常用q检验的方法,即Newman-kueuls法,其基本步骤为:建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。
多个实验组与一个对照组均数间两两比较:多个实验组与一个对照组均数间两两比较,若目的是减小第II类错误,最好选用最小显著差法(LSD法);若目的是减小第I类错误,最好选用新复极差法,前者查t界值表,后者查q'界值表。
本文通过汽车经销商在不同城市投放不同类型的广告差异性分析谈谈在市场调查中如何利用SPSS统计分析软件实现单因素方差分析、双因素方差分析以及协方差分析的。
2、SPSS方差分析工具
在使用分析工具之前,必须按照行或列在工作中组织数据,然后单击“分析(Analyze)”命令。均值比较(Compare Means):一维方差分析(One-Way ANOVA)。一般线性模型(General Linear Model):单因变量多因素方差分析(Univariate),其中单因变量多因素方差分析包括无重复双因素分析和可重复双因素方差分析;协方差分析(Covariance analysis)。本文中通过实例分别介绍这几种方差分析。
3、SPSS方差分析的方法
首先采用单因素方差分析
单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。
单因素方差分析的第一步是明确观测变量和控制变量。单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值得变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。
在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。
若只考虑一个因素对某项调查指标的影响是否显著,则可通过对因素的多个水平进行比较。到最优水平,这时采用的是单因素方差分析方法。我们为调查不同地区对汽车销量的影响,选定三个地区:西、中、东。调查人员在各个地区调查其销量,希望通过调查出销量最高的地区。
初始设置:单击窗口左下角的“变量窗口”,在名称,类型,长度,小数点等处适当设置,如本例题命名region为地区,sales为销量。Region和sales的小数点都设置为0。完成相关设置后,单击窗口左下角上午“数据窗口”,返回数据填充区。在SPSS工作表中输入表1的调查数据。
表1 单因素试验的数据
方差分析对观测变量各总体分布有两个基本假设前提:(1)观测变量各总体应服从正态分布;(2)观测变量各总体的方差应相同。对于前提(1),在一般情况下,如果研究对象的样本数量足够大,则认为其总体是服从或近似服从正态分布的,所以,在进行方差分析是往往不需要去检验总体分布的正态性。前提(2)是方差分析最为重要的一个假定,在进行分析前要对其进行验证,方法如下:
依次选择菜单栏中的分析(Analyze)→均值比较(Compare Means)→一维方差分析(One-Way ANOVA),弹出“One-Way ANOVA”的对话框。将sales变量选入“因变量列”(Dependent List)的方框中,将变量region选入“因子”(Factor)的方框,然后点击“选项”(Options),弹出“一维方差分析:选项”面板,选中“方差齐性检验”(Homogeneity of variances test),点击“Continue”,重新回到“一维方差分析”界面,点击“确定”,即出现SPSS计算的结果如表2所示。该表显示,三个地区的方差齐性检验值为1.262,概率p
值为0.302,本例中显著性水平为默认值0.05,概率p值小于显著性水平,所以可以认为本实验对不同地区的方差有显著性差异。满足方差分析的前提(2)。
表2 方差齐性检验
单因素方差分析的具体操作:上述准备好后,即可进行单因素方差分析。具体步骤如下:选择菜单栏中的分析→均值比较→一维方差分析,将sales变量选入“因变量列”的方框中,将变量region选入“因子”的方框(此步骤与方差分析前提(2)的验证相同)。点击“选项”,弹出“一维方差分析:选项”面板,选择“统计”中的“描述”(Descriptive),然后点击“继续”回到“一维方差分析”界面,点击“两两比较”,弹出“一维方差分析:多重比较”面板。在“假定相等方差”中选择“LSD”(最小显著差数)。点击“继续”返回“一维方差分析”界面。点击“确定”,即出现如下表所示的结果。这里,因子:代表不同水平的列标题名。因变量列:选择代表不同水平的结果的列标题名。两两比较:弹出的对话框中选择“LSD”(最小显著差数)。这里用到LSD主要原因是最小显著差数法的实质是两个平均数相比较的t检验法。检验的方法是首先计算出达到差异显著的最下差数,极为LSD,然后用两个处理平均数的差与LSD比较,若|x1-x2|>LSD,即为在给定的α水平上差异显著,反之,差异不显著,这样输出结果中会出现各个水平间的比较。左下角的“显著性水平”框中,可输入0.05或0.01两个水平。
表3为三个不同地区描述统计量。从表中的均值可以看出,东部地区销量较高,为196.14。表4是三个地区的单因素方差分析结果。从表中可以看出,组间均方差为3034.087,组内均方差为578.956,相除得到F统计量的值为5.241,对应的概率p值为0.013,小于显著性水平,所以认为三个地区有显著性差异。若想进一步知道哪个地区与其他地区有显著的均值差别,则要进行多重比较检验。表5为两两水平均值检验的结果。表中“Sig”是检验统计量观测值在不同专业中的概率p值,Mean Difference(均值差异)一
列中的星号含义是:显著性水平为0.05(默认值)的情况下,相应两组的均值存在显著差异,与“Sig”一列的结果相对应。可以看出,西部地区与中部地区的概率p值为0.107,大于显著性水平0.05,水明这两个地区之间没有显著性差异;西部地区与东部地区的概率p值为0.04,小于显著性水平。则认为这两个地区之间有显著性差异;同样,中部地区与东部地区的概率p值为0.118,大于显著性水平,所以这两个地区之间也没有显著性差异。综合考虑,东部地区的平均值196.14,最大,方差也最大,因此,在这个地区销售汽车的销量最大。
表3 统计描述
表4 方差分析
表5 多重比较
其次采用单因变量多因素方差分析
汽车lsd
多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终到利于观测变量的最优组合。
在实际问题中,影响试验结果的因素往往不止一个,而是两个或更多。假设要考察的因