9 方差分析
Analysis of Variance
方差分析是指把一种数据的总偏差分解为若干种成分的方法。与其中每一种成分相联系的是某一特殊偏差的来源。通过分析有可能确定每一种偏差来源对总偏差的贡献大小,即在众多的影响因素中,有些影响作用大一些,有些则小些。在现实经济生活中常常需要分析哪几种因素的影响显著,方差分析是解决这一问题的唯一有效的方法。在第八章曾经讨论过两个总体的平均数是否相等的显著性检验问题,但对2个以上的多个总体的平均数是否相等的问题,前面介绍的检验方法无法解决。对这些问题我们采用方差分析来解决。
9.1 因子方差分析
单因子方差分析是分析一个因子的不同水平对总体的影响的方法。
比如某企业为了推销空调,做了四种不同内容的宣传广告。广告1:强调价格便宜。广告2:强调质量可靠。广告3:强调节能。广告4:强调免费安装和保修。在这个问题中广告是所要检验
的因素,四个不同内容的广告可看作是该因素的四个不同的水准的试验。如果以上四种广告内容的宣传对空调销售量的影响没有显著性差异,则从四种广告中任选一种比较经济的广告即可。但是,如果这四种广告对空调销售量的影响有显著性差异,则必须选择对空调的销售量更为有利的方案。
9.1.1 单因子方差分析的资料结构
单因子方差分析是只分析一个因子的不同水平对总体影响的单纯的试验计划法。单因子方差分析至少要对两个水平以上的效果进行比较分析,检验的因子可记作。前面所述的四种广告为四个水平,可分别记作。每个水平的观测值可以用表示。在方差分析中,当涉及到的因子只有一个时,称为单因子方差分析;涉及的因子有两个时称为双因子方差分析;涉及的因子有两个以上的方差分析,称作多因子方差分析。它具有两个特点;
①各水平的观测值个数不一定相等。
②各组观测数据必须是,从具有相同方差的相互独立的总体中随机抽样的样本。单因子方差分析的资料结构如表9-1
(9-1)单因子方差分析的资料结构
观测值
      (i,i=1,2,,)
1
2
a
1
2
j
nj
11
12
1n1
21
22
2n2
     
a1
a2
ana
 
总平均
9.1.2 单因子方差分析数学模型及方差分析表
应用方差分析时需要满足以下两个假设条件;首先,各水平观测值是从服从正态分布的总体
中随机抽取的样本。其次,各水平的观测值数据是从相互独立,且具有相同方差的总体中抽取的。
即使是在同一个水平下的观测值之间也有差异,通常这个差异是无法控制的因素影响的结果。如果不存在这些随机性的影响,则在水平下的各个观测值都应等于总体的平均数=。若以=1,2,n)表示第个观测值的随机误差,则对于水平下的单因子方差分析的数学模型(各观测值)可按下式表示)
                      …(9-1
                  (9-2)
(-代表水平=1,2,; -代表观测值=1,2,)
水平下的观测值
-所有个总体的平均数
-水平总体平均数(或称第个总体平均数)
-水平下各观测值的效应值(或处理水平)
-水平下第观测值的随机误差(相互独立的随机变量)
为第个水平下对观测值的效应值或处理效果,它指除去因子对试验指标的平均影响后,因子对试验指标的特殊影响。即,反映因子第个水平对观测数据的“纯”作用大小。比如,上述的四种广告宣传对空调销售量的影响中,强调对人体健康无害的广告宣传对销售量的特殊影响。为了确认个不同水平总体的平均(处理的平均效果)是否相等,原假设可设为各水平的平均(处理效果)相等。
            (9-3)
,各水平的处理效果(各总体的平均)相等的原假设等同于分成几个水平(总体)的处理效果。每个水平的观测值平均数
  (=,2,α; =1,2,i(9-4)
- 个总体(个水平)的样本个数
- 个总体第个样本的个数
总体的总平均数可按下面的公式计算。
          (9-5)
(样本的总数(,个总体的平均数)
所有观测值与总平均数的离差平方和是描述所有样本观测值离散程度的指标,被称作总离差平方和。可以分解:
  (9-6)
由上面的公式(9-1)(9-4)可知,由此可得:
        (9-7)
            ()            ()                                                         
是各组平均数与总平均数离差的平方和,反映了各总体的样本平均数之间的差异程度,通常把称做系统误差或组间离差平方和是每个样本观测值与其组平均离差的平方和,它反映了样本观测值抽样误差的大小程度的随机误差。通常把称为组内误差或误差平方和。下面讨论单因子方差分析表(表9-2)。总离差平方和,组内误差和系统误差的自由度分别为,自由度=自由度=自由度=;组间平均离差和组内平均误差,可用值及其它们的自由度计算。
            /(),  /
(表9-2  单因子方差分析表
平方和
自由度
   
F-
汽车lsd
 
9.1.3 假设检验
1.检验各总体(各因子)的平均数
设检验因子的水平分别是个服从正态分布的相互独立的总体,; (=1,2,...)是第个总体的平均数,代表方差,是从总体中随机抽取的样本。在满足方差分析条件下,检验多个总体的平均数是否相等。
假设:原假设,即各总体的平均数相等。
检测统计量:统计量就是方差分析中判断是否成立的检测统计量。若,则成立,服从自由度为(F分布。这表明各总体平均数之间没有显著性差异。即,有1-的把握认为检验因子对指标没有显著影响。若,被拒绝。这表明各总体平均数之间存在显著性差异。即,有1-的把握认为检验因子对指标有显著影响。
2.检验各组水平间平均差异(处理效果的差异)
如果在各总体的平均数检验中原假设被否定,则有必要检验各水平(处理)之间的平均差异。对各水平之间的平均差异进行多元比较的一般方法有两种;费雪尔最小显著性差异法(Fishers Least Signification Difference Proceduer 和谢佛(Scheffe)最小显著性差异法。
(a)费雪尔最小显著性差异法
        9-8
费雪尔最小显著性差异法是反复进行两个水平之间的-检验。
(b)谢佛最小显著性差异法
                                9-9
9.1.4 单因子方差分析SAS程序
单因子方差分析SAS程序的基本形式如下:
(a) PROC  ANOVA (data=dsn);
(b)   CLASS  分类变量(T;
(c)   MODEL 因变量(Y)=分类变量(T);
(d)   MEANS T/ALPHA=P LSD SCHEFFE;
RUN;
PROGRAM解释
(e) PROC  ANOVA;运行分析程序的命令
(f) CLASS T ;表示因子(处理)水平,在模型中作为独立变量使用,需要考察的因素或分类变量要在该语句予以说明。该语句必须使用,而且须出现在MODEL语句之前。
(g) MODEL 因变量(Y)=分类变量(T);运行以Y为因变量,T为独立变量的方差分析。
(h) MEANS T/ALPHA=P LSD SCHEFFE;显著性水平为,利用费雪尔的最小显著性差异法(LSD)和谢佛法进行检验。
案例分析9-1:日本某汽车制造会社的发动机零件由东京,大阪,神户,北海道4个地区生产,该零件是汽车中最重要的零件。若其强度差异大,将对汽车生产和质量有直接的影响。表9-4是从4个地区生产的零件中各随机抽取6个,在同一个试验条件下,按随机顺序进行强度试验所得的结果。
              (9-4)            零件的强度试验结果
OBS
东京(A1)
大阪(A2)
神户(A3)
北海道(A4
1
41
32
35
33
2
35
37
30
27
3
48
46
24
36
4
40
53
26
35
5
45
41
28
27
6
52
43
31
25
试求:
①利用方差分析表,检验4个地区生产的汽车零件的强度是否相等。
②利用费雪尔最小显著性差异法(LSD)和谢佛(Scheffe)法,检验对各水平之间的平均差异。
③求东京和神户地区生产的零件强度的95%置信区间
SAS PROGRAM:
data example1;
do brand = 1 to 4;
input y @@; output; end;    ←①按4个地区顺序赋值
cards;
41 32 35 33 35 37 30 27 48 46 24 36 40 53 26 35 45 41 28 27 52 43 31 25
run;
proc anova;                ←②运行方差分析
class brand;                ←③BRAND 是代表因子水平的独立变量 
model y=brand;              ←④表示以强度(Y)为因变量,零件的品质(BRAND)为独立变量
means brand/alpha=0.05 lsd scheffe; ←⑤利用LSDSCHEFFE法进行检验.
run;
□运行结果及解释
Analysis of Variance Procedure
      Class Level Information
      Class    Levels      Values
      BRAND        4      1 2 3 4
      Number of observations in data set = 24
(a)Analysis of Variance Procedure
          Dependent Variable: Y
Source          DF  Sum of Squares Mean Square F Value    Pr > F
Model          3  1027.50000000  342.50000000  10.75    0.0002