当前位置:文档之家› 第三章方差分析

第三章方差分析

第三章方差分析
第三章方差分析

第三章方差分析

方差分析是分析试验数据的一种统计方法。在应用中经常要分析各种因素及因素间的交互作用对研究对象某些指标值的影响。在方差分析中,把试验数据的总波动分解为由所考察因素引起的波动和随机因素等引起的波动,然后通过分析比较这些变差(波动)来推断哪些因素对所考察指标的影响是显著的,哪些是不显著的。

第一节单因素方差分析

例 3.1.1为了比较五种牌子的合成木板的耐久性,对每个牌子取四个样品做摩擦试验,测量磨损掉的板材量,磨损量小的牌子质量是较好的。木板磨损数据见以下数据行,根据磨损程度我们从以下几个方面来比较五种牌子。

一.概括多组数据

1.比较各组的常规统计量——使用SORT和MEANS过程

从几个组分别概括数据的方法之一是求各个组的均值、方差、标准差等常用描述统计量。data veneer;

input brand $ wear @@;

cards;

ACME 2.2 ACME 2.1 ACME 2.4 ACME 2.5

CHAMP 2.2 CHAMP 2.3 CHAMP 2.4 CHAMP 2.6

AJAX 2.2 AJAX 2.0 AJAX 1.9 AJAX 2.1

TUFFY 2.4 TUFFY 2.7 TUFFY 2.6 TUFFY 2.7

XTRA 2.3 XTRA 2.5 XTRA 2.3 XTRA 2.4

;

proc print data=veneer;

title'木板数据';

proc sort data=veneer;

by brand;

proc means data=veneer;

by brand;

var wear;

title'木板数据的概括';

run;

输出的部分结果如下:

------------------------------------------- brand=ACME -------------------------------------------

The MEANS Procedure

Analysis Variable : wear

N Mean Std Dev Minimum Maximum

4 2.3000000 0.1825742 2.1000000 2.5000000

------------------------------------------- brand=AJAX -------------------------------------------

Analysis Variable : wear

N Mean Std Dev Minimum Maximum

4 2.0500000 0.1290994 1.9000000 2.2000000

------------------------------------------ brand=CHAMP -------------------------------------------

Analysis Variable : wear

N Mean Std Dev Minimum Maximum

4 2.3750000 0.170782

5 2.2000000 2.6000000

------------------------------------------ brand=TUFFY -------------------------------------------

Analysis Variable : wear

N Mean Std Dev Minimum Maximum

4 2.6000000 0.1414214 2.4000000 2.7000000

------------------------------------------- brand=XTRA -------------------------------------------

The MEANS Procedure

Analysis Variable : wear

N Mean Std Dev Minimum Maximum

4 2.3750000 0.0957427 2.3000000 2.5000000

结果分析:brand=AJAX的平均磨损量最低,brand=TUFFY的平均磨损量最高。但这些平均磨损量的差别是否真正存在,还需要统计检验。

2.用直观图形比较几个组——使用PROC CHART过程

3.使用SAS菜单系统“分析员应用”概括多组数据

二.多组比较—单因子方差分析

1.建立多组比较的假设检验

仅仅简单描述组之间的差别是不够的,还要知道差别有多大,是否具有统计显著差别,即进行假设检验。

0:

A B C D E

Hμμμμμ

====和

1

H:至少有两个均值不同方差分析判断由各组之间的不同引起的变差是否比纯粹由随机因素引起的变差要大。本章的方差分析是一种参数方差分析(用ANOV A过程),不是非参数方法分析(Proc Npar1way过程)。

各组数据的样本量相同则称数据为均衡的,反之则称为非均衡的。

拒绝H0:pα

<,各组均值有显著性差异。

2.用编程方法进行单因子方差分析

方差分析要求数据满足以下假定:

(1)观测是独立的;

(2) 观测为正态总体的样本;

(3) 各组的方差相等。

proc anova data =veneer;

class brand;%把数据分组 model wear=brand;%研究wear 与brand 的关系

title ‘木板数据的方差分析’;

run ;

The ANOVA Procedure

Class Level Information

Class Levels Values

brand 5 ACME AJAX CHAMP TUFFY XTRA

Number of observations 20

Dependent Variable: wear

Source DF Sum of Squares Mean Square F Value Pr > F

Model 4 0.62300000 0.15575000 7.19 0.0019

Error 15 0.32500000 0.02166667

Corrected Total 19 0.94800000

R-Square Coeff Var Root MSE wear Mean

0.657173 6.290428 0.147196 2.340000

Source DF Anova SS Mean Square F Value Pr > F

brand 4 0.62300000 0.15575000 7.19 0.0019

结果分析:由于0.00190.10p α=<=,故拒绝H0,于是认为各个牌子的平均磨损有显著性差异。 还可以用非参数方法进行检验,如 proc npar1way data =veneer;

class brand; var wear;

title '木板数据的非参数检验';

run ;

Wilcoxon Scores (Rank Sums) for Variable wear

Classified by Variable brand

Sum of Expected Std Dev Mean

brand N Scores Under H0 Under H0 Score

ACME 4 37.50 42.0 10.495112 9.3750

AJAX 4 12.50 42.0 10.495112 3.1250

CHAMP 4 45.00 42.0 10.495112 11.2500

TUFFY 4 69.00 42.0 10.495112 17.2500

XTRA 4 46.00 42.0 10.495112 11.5000

Kruskal-Wallis Test

Chi-Square 11.9440

DF 4

Pr > Chi-Square 0.0178

结果分析:由于0.01780.10p α=<=,故拒绝H0,均值有显著性差异。

三. 多重比较

如果进行方差分析后发现各组之间均值有显著性差异,那么只知道有某些均值有不同,但无法知道哪些均值不同。下面将给出在进行方差分析时如何找出哪几个均值不同。

1. 几个统计术语

多重比较方法是指在因变量的三个或更多个水平下均值之间进行比较的检验。

MEER 控制“试验错误率”;CER 控制“比较错误率”。以木板数据为例说明。共有5种牌子,均值两两比较有10种组合。如果要控制10种比较的总错判概率(当两个均值相同时判为不同),就称为控制“试验错误率”,或称对整个试验的总错判概率。如果对10种比较中的每一种控制错判概率,就称为控制“比较错误率”,或称对每一种比较的错判概率。

2.用重复t 检验控制CER

在比较几对均值时要控制CER ,只要进行重复t 检验,每对做一次,通过控制每个检验的错误率来控制CER 。

proc anova data =veneer;

class brand;

model wear=brand; means brand / t ;%执行多重t 检验

title '木板数据的方差分析';

run ;

The ANOVA Procedure

t Tests (LSD) for wear

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05

Error Degrees of Freedom 15

Error Mean Square 0.021667

Critical Value of t 2.13145

Least Significant Difference 0.2218

Means with the same letter are not significantly different.

t Grouping Mean N brand

A 2.6000 4 TUFFY

B 2.3750 4 XTRA

B 2.3750 4 CHAMP

B 2.3000 4 ACME

C 2.0500 4 AJAX

结果分析:磨损情况最好的是AJAX 牌子木板;最坏的是TUFFY ;其余四种牌子的木板磨损程度相同。

方差分析要求的第三个假定是各组方差相等,此假定可以进行检验。只需在means 语句中加上选项hovtest 或hovtest=levene ,表示进行方差齐性检验。

第二节 两因子方差分析

在单因子方差分析中,讨论了影响指标Y 的因素只有一个时的统计推断问题。但在实践中,影响指标的因素往往多个,这些因素间又有相互联系(交互作用)。两个方面的问题:如何设计试验方案,使得试验次数少而得到的信息多(试验设计问题);另一个问题是如何分析处理数据。

对两因子情况,采用最简单的设计—全面试验,即两个因子的所有可能水平搭配都做n 次试验。

一.两因子方差分析的模型

设因子A 有r 个水平,因子B 有c 个水平,指标Y 在i j A B 条件下的试验数据ij y 满足以下模型

,1,,,1,2,,ij i j ij y a b i r j c με=+++== ,

110,0r c

i j i j a

b ====∑∑,()2~0,ij N εσ且相互独立。 检验的假设为:

()012:0a r H a a a ==== (因子A 对指标Y 没有影响)

()012:0b c H b b b ==== (因子B 对指标Y 没有影响)

当因子A 或因子B 对指标Y 有显著性影响时,进一步可对因子A 或因子B 逐个进行多重比较,找出最佳的生产条件。

二.方差分析方法

下面采用与单因素方差分析模型类似的方法导出检验统计量。设指标Y 的总偏差平方和211()r c

T ij i j SS y y ===-∑∑可分解为

22

2.111111(..)()(.)r c r c r c T ij j i j i j i j i j E A B

SS y y y y y y y y SS SS SS =======--++-+-=++∑∑∑∑∑∑ 其中111r c ij i j y y rc ===∑∑,1

1.c i ij j y y c ==∑,11.r

j ij i y y r ==∑。 A SS 称为因素A 的偏差平方和,反映了因素A 的不同水平对指标Y 的影响大小;B SS 称为因素B 的偏差平方和,反映了因素B 的不同水平对指标Y 的影响大小;E SS 称为误差(或剩余)的平方和,反映除因子A 和B 以外其余因素及随机误差对指标Y 的影响大小。

和一元方差分析相类似,可以证明,当()0a H 或()0b H 成立时

1,(1)(1)/(1)~/(1)(1)A A r r c E SS r F F SS r c ----=--, 1,(1)(1)/(1)~/(1)(1)

B B c r c E SS c F F SS c c ----=-- 对给定的水平α,当)()1)(1(,1α--->b a a A F F (或p α<)时,我们拒绝原假设,认为因子A 对指标Y 的影响是显著的。对因子B 完全类似。

三.使用ANOV A 过程进行方差分析

例3.2.2 为提高合金钢的强度Y ,同时考虑碳(C )含量(因子A )及钛(Ti )与铝(Al )的含量和(因子B )对强度Y 的影响,目的是找出最佳的含量组合,使强度Y 达最大。设计方案及数据如下:

解 程序如下:

data D322;

do a='a1','a2','a3';

do b='b1','b2','b3','b4';

input y @@; output ;

end ;end ;

cards ;

63.1 63.9 65.6 66.8 65.1 66.4

67.8 69.0 67.2 71.0 71.9 73.5

;

proc print data =D322;

run ;

proc anova data =D322;

class a b;

model y=a b;

means a b /t ;

run ;

The ANOVA Procedure

Dependent Variable: y

Source DF Sum of Squares Mean Square F Value Pr > F

Model 5 110.0808333 22.0161667 41.17 0.0001

Error 6 3.2083333 0.5347222

Corrected Total 11 113.2891667

R-Square Coeff Var Root MSE y Mean

0.971680 1.081593 0.731247 67.60833

Source DF Anova SS Mean Square F Value Pr > F

a 2 74.91166667 37.45583333 70.05 <.0001

b 3 35.16916667 11.72305556 21.92 0.0012

结果分析:

(1)由于0.0001<=0.05p α=,故两因子方差分析模型是显著的。

(2)由于<0.0001<=0.05a p α,故拒绝()0a H ,认为因子A 对指标Y 的影响是显著的。对

因子B 有相同的结论,=0.0012<=0.05b p α。

Obs a b y

1 a1 b1 63.1

2 a1 b2 63.9

3 a1 b3 65.6

4 a1 b4 66.8

5 a2 b1 65.1

6 a2 b2 66.4

7 a2 b3 67.8

8 a2 b4 69.0

9 a3 b1 67.2

10 a3 b2 71.0

11 a3 b3 71.9

12 a3 b4 73.5

The ANOVA Procedure

t Tests (LSD) for y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05

Error Degrees of Freedom 6

Error Mean Square 0.534722

Critical Value of t 2.44691

Least Significant Difference 1.461

Means with the same letter are not significantly different.

t Grouping Mean N b

A 69.7667 3 b4

A

B A 68.4333 3 b3

B

B 67.1000 3 b2

C 65.1333 3 b1

因子A 的三个水平两两之间对Y 的影响均有显著性差异,碳的含量为0.05%(A3)时合金钢的强度最大;而因子B 的四个水平之间除B4和B3,B3和B2之外也均有显著性差异,且钛铝含量和为3.6%(B4)时强度最大。

最佳组合条件:A3和B4组合。因B4和B3没有显著差异,考虑节约原则,也可采用A3和B3组合。

四. 交互作用

两个因子不同水平的交叉搭配对指标有显著性影响,这种联合作用称为因子间的交互作用。当要考虑因素A ,B 间的交互作用B A ?时,在各水平组合下需要做重复试验,此时对应的统计模型为:

()()11112,1,2,,0,1,2,,,1,2,,()0,()0~0,,ijt i j ijt ij r c i j i j r c ij ij i j ijt y a b ab i r a b j c t n

ab ab N μεεσ====?=++++=??====????==????

∑∑∑∑ 且相互独立. 检验假设为

()012:0a r H a a a ==== (因子A 对指标Y 没有影响)

, ()012:0b c H b b b ==== (因子B 对指标Y 没有影响)

()()()()01112:0ab rc H ab ab ab ==== (因子A 和B 没有联合影响)

例3.2.3 考虑合成纤维收缩率(因子A )和总拉伸倍数(因子B )对纤维弹性Y 的影响。收缩率取4个水平:12340,4,8,12A A A A ====;因子B 也取4个水平:

1234460,520,580,640B B B B ====。在每个组合i j A B 下重复做二次试验,弹性ijt y 的数据如程序中的数据行。 试用编程方法分析合成纤维数据,并回答以下问题:

(1)收缩率(A )、拉伸倍数(B )对弹性Y 有无显著性影响?

(2)是否有交互作用?

(3)使纤维弹性达到最大的生产条件是什么?

解:编程如下:

data D323;

do a=0 to 12 by 4;

do b=460 to 640 by 60;

do i=1 to 2;%每种组合下的试验次数

input y @@; output ;

end ; end ; end ;

cards ; 71 73 72 73 75 73 77 75 73 75 76 74 78 77 74 74 76 73 79 77 74 75 74 73 75 73 73 72 70 71 69 69 ;

proc anova data =D323;

class a b;

model y=a b a*b;

means a a*b /t bon ;

run ;

The ANOVA Procedure

Dependent Variable: y

Source DF Sum of Squares Mean Square F Value Pr > F

Model 15 158.7187500 10.5812500 7.87 <.0001

Error 16 21.5000000 1.3437500

Corrected Total 31 180.2187500

由于0.00010.05p α<<=,故考虑有交互作用的方差分析模型时显著的。

Source DF Anova SS Mean Square F Value Pr > F

a 3 70.59375000 23.53125000 17.51 <.0001

b 3 8.59375000 2.86458333 2.13 0.1363

a*b 9 79.53125000 8.83680556 6.58 0.0006

因子A (0.00010.05a p α<<=)及因子A 与B 的交互作用(0.00060.05b p α=<=)对指标Y 的影响是高度显著的,而因子B 在0.05α=的水平上是不显著的(0.13630.05ab p α=>=)。 Level of Level of --------------y--------------

a b N Mean Std Dev

0 460 2 72.0000000 1.41421356

0 520 2 72.5000000 0.70710678

0 580 2 74.0000000 1.41421356

0 640 2 76.0000000 1.41421356

4 460 2 74.0000000 1.41421356

4 520 2 75.0000000 1.41421356

4 580 2 77.5000000 0.70710678

4 640 2 74.0000000 0.00000000

8 460 2 74.5000000 2.12132034

8 520 2 78.0000000 1.41421356

8 580 2 74.5000000 0.70710678

8 640 2 73.5000000 0.70710678

12 460 2 74.0000000 1.41421356

12 520 2 72.5000000 0.70710678

12 580 2 70.5000000 0.70710678

12 640 2 69.0000000 0.00000000

在A3 (8)和B2(520)的条件下得到弹性Y的最大值78,这就是最佳生产条件。

第三节SAS系统的ANOVA过程

ANOV A过程对多种类型试验设计的均衡数据执行方差分析。

§1 简介

ANOV A过程是SAS/STA T软件中进行方差分析的几个过程之一,它是处理试验数据的方法。一个响应变量(通常称为因变量)在由分类变量(通常称为自变量)识别的试验条件下被测量。响应变量的变差可解释为归因于分类效应的误差加上随机误差。

ANOV A过程用于处理均衡数据(即对于分类变量的每种组合观测数是相等的)。虽然GLM 过程能够处理均衡和不均衡的两种数据,但是ANOV A过程考虑到均衡设计的特殊构造,对于均衡数据使用ANOV A比起使用GLM不仅较快,而且使用的存贮量更少。

ANOV A过程主要处理均衡数据,除此之外,还可以处理若干不完全的均衡区组设计,完全的嵌套设计以及单元频数互相成比例,且对基本总体也成比例的设计。

PROC ANOV A首先检查一下你的设计是否均衡,如果你的设计不是均衡的,也不是上述提到的几种特殊情况之一,那么你应该使用GLM过程。在这种情况下,ANOV A过程打印一条警告信息,告诉你设计不是均衡的,而且ANOV A分析无效。

一、交互使用PROC ANOV A

ANOV A过程可以交互地使用。用户由MODEL语句规定一个模型并用RUN语句运行ANOV A之后,种种语句(比如MEANS,MANOV A,TEST和REPEATED)还可以被执行,不必

要求ANOV A过程重新计算模型的平方和。

“语句说明”部分将介绍可以交互使用的语句。这些交互使用的语句通过在单个语句或一组语句后跟随RUN语句来执行这一个或这一组语句。

注意:MODEL语句不能有重复,ANOV A过程只允许使用一个MODEL语句。

当使用交互式的ANOV A过程时,可以用DA TA步,其它的PROC步,ENDSAS语句或者用QUIT语句来结束这个过程。QUIT语句的句法为

quit;

当使用交互式的ANOV A过程时,RUN语句不能结束该过程,它只是告诉ANOV A去执行RUN语句之前这些附加的语句。

当WHERE语句同ANOV A过程一起使用时,它必须在第一个RUN语句前出现。当BY语句同ANOV A过程一起使用时,交互方式无效。也就是,一旦遇到第一个RUN语句时,对该数据集每个BY组中的观测进行分析处理,而第一个RUN语句后的其它语句该过程不执行。

当因变量中间有不同形式的缺失值时,交互过程也是不可能的。

二、效应的说明

在SAS方差分析过程中, 区分分类水平的变量称为分类变量(classification variables)或因素,并且这些变量必须在CLASS语句中加以说明。分类变量也称为属性的(categorical)、定性的(qualitative)、离散的(discrete)或名义的变量(nominal variables)。分类变量的值称为水平。分类变量可以是数值型的,也可以是字符型的,这与因变量(也叫响应变量)不同,因变量必须是连续的数值型变量。

方差分析模型规定效应(effect),这些效应是分类变量的组合,在下面各种方式下用来说明因变量的变差:

●主效应就用分类变量本身表示,如A,B,C等。主效应用于检验自变量的假设:即在这个问题里因变量的均值对该因素的每个水平是相等的,而不考虑模型里的其它自变量。

●交叉效应(交互作用)通过在分类变量之间用星号(*)连接来规定,如A*B A*C A*B*C。在这个模型中交叉项用于检验这样的假设:即一个因素的效应不依赖于交叉项里其它因素的水平。

●嵌套效应通过在主效应或交叉效应之后跟随着用括号括起来的一个分类变量或分类变量的列表来表示。主效应或者交叉效应被嵌套在括号内列出的这些效应里。如B(A)C*D(AB)。嵌套效应检验的假设类似于交叉效应,但嵌套变量的水平对所嵌套的变量内部的每一个组合是不

相同的。

效应的一般形式可以使用分类变量A,B,C,D,E和F来说明:

A*B*C(D E F)

首先是交叉列表,紧跟着是在括号里的嵌套变量的列表。

注意:在嵌套列表里或在左括号前面不能出现星号。

1.主效应模型

对于包含因素A,B,C和因变量Y的三因素主效应模型,用ANOV A过程分析时需要的语句如下:

proc anova;

class a b c;

model y=a b c;

run;

2.含有交叉因素的模型

为了在模型中规定交互作用,如上述所介绍的用星号(*)把这些效应连接起来。例如,下面这些语句规定一个完全的因子模型,该模型包含了所有的交互作用:

proc anova;,

class a b c;

model y=a b c a*b a*c b*c a*b*c:

run;

3.嵌套模型

嵌套效应的表示法:首先写出将被嵌套在其它效应里的这个效应,然后在括号内写出这个其它效应。例如,如果A和B是主效应,C是被套在A和B内部的(也就是,观测到的C的水平对A和B的每个组合不相同)。用PROC ANOV A处理嵌套模型时需要的语句如下:proc anova;

class a b c;

model y=a b c(a b);

run;

因素C的水平通过包含它的那些效应的水平来识别。比如,CITY(城市)被套在STATE(国家)内部:CITY(STATE),那么CITY的水平通过STATE的水平来识别。

4.包含嵌套、交叉和主效应的模型

对于包含嵌套、交叉和主效应的模型,在MODEL语句里用星号和括号来组成:

proc anova;

c|ass a b c;

model y=a b(a) c(a) b*c(a):

run;

5.竖条(|)记号

下面介绍一个记号“|”(bar)。这个记号可以简化完全因子模型的说明。例如(2)中的这些语句也可以简单地写成:

proc anova;

class a b c;

model y=a | b | c;

run;

当使用“|”(bar)记号时,等号右边的表达式使用Searle(1971)给出的准则从左到右把效应展开。例如,A |B|C展开如下:

A|B|C→{A|B}|C

→{A B A*B) |C

→A B A*B C A*C B*C A*B*C

此外,用户还可以规定包含在任意效应里的最大变量个数。用竖条记号表示时也可以在使用竖条(|)的表示式后加一个@记号,并在@之后再跟随一个数字(即变量的最大个数),以表示展开时交叉效应及嵌套效应所含变量个数的最大值。例如:规定A|B|C@2,结果将只得到最多包含二个变量的交叉效应。在此种情况下为:

A B A*B C A*C和B*C

使用竖条记号的另一些例子如下:

A |C(B) 等价于 A C(B) A*C(B)

A(B) |C(B) 等价于A(B) C(B) A*C(B)

A(B) |B(D E) 等价于A(B) B(D E)

A|B(A) |C 等价于 A B(A) C A*C B*c(A)

A |B(A) |C@2 等价于A B(A) C A*C

A |B|C|D@2 等价于A

B A*B

C A*C B*C

D A*D B*D C*D

§2语句说明

下面这些语句可用于ANOV A过程中:

PROC ANOV A options;

CLASS variables;

MODEL dependents=effects</options>

以上是必需的语句,而且必须按所列次序出现.

ABSORB variables:

BY variables;

FREQ variables;

必须出现在第一个RUN语句之前;供选择的语句

MANOVA;

MEANS effects</options>;

REPEATED;

TESTE=effect:

可以出现在MODEL语句之后;并可以交互使用的语句.

一、PROC ANOV A语句

PROC ANOV A

PROC ANOV A语句启动方差分析过程。在PROC ANOV A语句中可以使用的选项如下:

①DATA=SAS-data-set(SAS数据集)——规定PROC ANOV A过程分析的数据集名。如果缺省,ANOV A处理最近创建的数据集。

②MANOV A——要求PROC ANOV A按多元方式删除那些含有丢失值的观测,也即只要在因变量中有丢失值就从这次分析中删除这个观测。这个选项在交互方式及进行多元分析时很有用。

③OUTSTAT=SAS-data-set(SAS数据集)——生成一个输出数据集,它包含模型中每个效应的平方和、F统计量以及概率水平。如果在MANOV A语句中指定了CANONICAL选项,且没有使用说明项=,数据集中还含有典型分析的一些结果。

二、MODEL语句

MODEL dependents=effects</options>;

MODEL语句用来规定因变量和自变量效应。如果没有规定自变量的效应,则ANOVA只

拟合截距,检验假设为因变量的均值是否为0。

下面这些是MODEL语句的选项,可用斜杠(/)之后:

①INT | INTERCEPT——要求ANOV A过程把截距作为模型里的一个效应进行处理,打印与截距有关的假设检验结果。PROC ANOV A在模型拟合时总是含有截距,但是当这个选项缺省时,不打印与其有关的假设检验结果。

②NOUNI——要求ANOV A过程不打印单变量分析结果。

三、一般语句

1.ABSORB语句

ABSORB variables;

这是为解决计算机资源所设置的一个语句。吸收是一种计算技巧,它对几种类型的模型在时间和内存要求上给出大大地压缩。variables是输入数据集中的一个或几个变量。

2.BY语句

BY variables;

BY语句同PROC ANOV A一起使用时,可获得对BY变量定义的几个观测组进行独立分析。当使用BY语句时,过程要求输入数据集按BY语句中的变量排序。

3.CLASS语句

CLASS variables:

在ANOV A过程中要使用的分类变量必须首先在CLASS语句中说明。典型的分类变量是TRT,SEX,RACE,GROUP和REP。CLASS语句是必需的,且必须放在MODEL语句前面。CLASS变量可以是数值型的,也可以是字符型的。字符型变量值若超过16个字符长度,该过程只取前16个字符。

分类水平是由CLASS变量的格式化值确定的,因此用户可以使用格式把数值分成几个水平。

四. 交互使用的语句

1. MANOV A语句

如果MODEL语句中含有一个以上的因变量,可以使用MANOV A语句要求计算另外的多元统计量。

2.MEANS语句

MEANS effects</options>;

该语句是用来计算在MEANS语句后列出的每个效应所对应的因变量均值。ANOV A过程

可以对出现在MODEL语句等号右边的任一效应计算因变量的均值。不过这些均值没有对模型里的效应修正;关于修正的均值,请参阅GLM过程中的LSMEANS语句。

在ANOV A过程里可以使用任意多个MEANS语句,它们放在MODEL语句后面。请看下面例子:

proc anova;

class a b c;

model y=a b c a*b;

means a b c a*b;

run;

该过程对分类变量A,B和C的每个水平及A和B的组合水平打印均值和标准差。如果规定proc anova;

class a b c:

model y=a b c a*b:

means a*b;

run;

该过程只对A和B的每个组合水平输出均值和标准差。

下面一些选项可以用在MEANS语句的斜杠(/)之后。这些选项进行多重比较检验,并规定这些检验的细节,只能用于模型里的主效应。例如,如果你的模型包括效应A,B和A*B,而且你规定选项DUNCAN来要求Duncan检验,那么这个检验只在主效应均值(A和B)上执行。

(1)多重对比过程的选项:

①BON——对于MEANS语句中的所有主效应均值之差进行Bonferroni的t检验。

②DUNCAN——对于MEANS语句中列出的所有主效应均值进行Duncan的多重极差(multiple—range)检验。

③DUNNETT一一进行Dunnett的双尾t检验(Dunnett’s two-tailed t-test),用以检验对MEANS 语句中所有主效应均值的某个水平作为对照,处理有无显著差别。

④DUNNETTL——进行Dunnett单尾t检验(Dunnett’s one-tailed t—test)。

⑤DUNNETTU——进行Dunnett单尾t检验。它检验是否任一个处理显著地大于这个对照。

⑥GABRIEL——对MEANS语句中列出的所有主效应均值进行Gabriel的多重对比检验。

⑦REGWF——对MEANS语句中列出的所有主效应均值进行Ryan—Einot—Gabriel—Welsch多重F检验。

⑧REGWQ——对MEANS语句中列出的所有主效应均值进行Ryan—Einot—Gabriel—Welsch多重极差(multiple—range)检验。

⑨SCHEFFE——对MEANS语句中列出的所有主效应均值进行Seheffe多重对比过程(Scheffe’s multiple—comparison)。

⑩SIDAK——对MEANS语句中的所有主效应均值水平依据Sidak不等式进行调整之后,对其均值之差两两进行t检验。

(11)SMM |GT2——当样本量不等时,基于学生化最大模和Sidak不相关t不等式,得到Hochberg的GT2方法,对MEANS语句中主效应均值进行两两对比检验。

(12)SNK——对MEANS语句中所有主效应均值进行Student—Newman—Keuls多重极差(multiple range)检验。

(13)T |LSD——对MEANS语句中所有主效应均值进行两两t检验,它相当于在单元观测数相等时Fisher的最小显著差(Fisher’s least—significant—difference)检验。

(14)TUKEY——对MEANS语句中所有主效应均值进行Tukey的学生化极差(Tukey’s studentized range)检验(HSD)。

(15)W ALLER——对MEANS语句中所有主效应均值进行Waller—Duncan的k比率(k-ratio)t 检验。

(2)有关多重对比检验细节的选项

①ALPHA=p——给出均值间对比检验的显著性水平。选项ALPHA=的缺省值是0.05。当用DUNCAN选项时,p值只能取0.01,0.05,或0.1,对于其它选项,p可以取0.0001到0.9999 之间的一切值。

②CLDIFF——要求过程把两两均值之差的BON,GABRIEL,SCHEFFE,SIDAK,SMM,GT2,T,LSD和TUKEY选项的结果均用置信区间形式输出。在不等单元大小时,除指定DUNCAN,REGWF,REGWQ,SNK,或WALLER外,CLDIFF是缺省值。

③CLM——对MEANS语句中指定变量的每个水平的均值,要求选项BON,GABRIEL,SCHEFFE,SIDAK,SMM,T和LSD的结果按置信区问形式输出。

④E=effect——指定在多重对比检验中所使用的误差均方。如果缺省,PROC ANOV A使用残差均方(MS)。用选项E=规定的效应必须是MODEL中出现过的效应;否则过程使用残差MS。

⑤KRATIO=value——给出Waller—Duncan检验的类型1/类型2误差限比例。KRATIO的合理值是50,100和500,大约相当于两水平时ALPHA值为0.1,0.05和0.01。过程使用的缺省值为100。

⑥LINES——按下降次序列出选项BON,DUNCAN,GABRIEL,REGWF,REGWQ, SCHEFFE,SIDAK,SMM,GT2,SNK,T,LSD,TUKEY和W ALLER的产生均值;并用一条线段在相应的均值旁边指出非显著的子集。

⑦NOSORT——当规定CLDIFF或CLM时,防止均值按下降次序排列。

3.TEST语句

TEST E=effect:

在分析中,如果这个语句缺省,仍然使用残差均方(MS)作为误差项对所有平方和(SS)计算F 值。用户可以要求使用其它效应作为误差项,得到另外的F检验,此时应使用这个语句。

在ANOV A过程中可以使用多个TEST语句,把它们放在MODEL语句后面。下面这些项可在TEST语句中规定:

①H=effects——规定在上述模型里哪些效应用来作为假设的效应。

②E=effect——指定一个而且只能是一个效应用来作为误差项,这个说明项是必须。

以上介绍了ANOV A过程的十个语句,这十个语句中只有几个是经常用到的,比如,MODEL,CLASS,MEANS,TEST等,其它几个语句在特殊场合才能用到.

§3 打印输出

ANOV A过程总是输出两个基本的方差分析表。首先打印包含以下各项的表:

①在CLASS语句中规定的每个变量名字。

②分类变量的水平个数或取不同值的个数。

③分类变量的取值。

④在数据集中的观测个数及由于丢失值而从这次分析中删去的观测个数。

接着ANOV A过程对MODEL,语句中每个因变量打印方差分析表。这张表包括:

⑤因变量的总平方和。

⑥属于模型部分的平方和。

⑦属于误差的平方和。

⑧均方,它等于相应的平方和除以自由度。

⑨平方和。

⑩自由度(DF)。

的估计值。

(11)误差的均方(MSE),它是误差方差2

(12)F值,它等于模型均方除以误差均方,用以检验模型的显著性,即检验除截距之外的所有其它参数均为0。

(13)与F统计量有关的显著性概率,抬头标签为Pr>F。

(14)2R, 它等于模型均方除以总平方和。用于度量在因变量的变差里能够由模型决定的比

R越靠近1,用该模型拟合这组数据的效果越好。

例有多少。一般2

(15)C.V.变异系数,它等于100×/s x%,即因变量的标准偏差除以其均值再乘以100。

(16)MSE的平方根,用以估计因变量的标准差。

(17)因变量均值。

对模型中每个效应,PROC ANOV A还打印以下各项:

(18)DF(degrees of freedom),自由度。

(19)Anova SS,平方和。

(20)F值,用以检验效应的各个组均值是否相等。

(21)Pr>F,同F值有关的显著性概率。

当使用‘TEST’语句时,ANOV A过程还输出在TEST语句里要求检验的结果。当使用MANOV A语句,且模型包含不止一个因变量时,ANOV A过程还打印另外一些统计量。

(22)对每个H阵的E叫H的特征根和特征向量(没有显示)。

(23)Hotelling—Lawley迹(没有显示)。

(24)Pillai迹(没有显示)。

(25)Wilks准则(没有显示)。

(26)Roy最大根准则(没有显示)。

§4 应用例子

例:含有均值比较的单因子设计

此例中的数据取自1946年Erden的实验数据。考察红丁香(red clover)的氮含量同几种菌种的关系。用五种菌种(strain)和这五种菌的合成来培养红丁香的氮含量。检验这六种菌培养的氮含量是否有显著差异。使用几种不同均值比较方法。以下SAS程序产生输出。

data clover;

input strain $ nitrogen @@;

cards;

3dok1 19.4 3dok1 32.6 3dok1 27.0 3dok1 32.1 3dok1 33.0

3dok5 17.7 3dok5 24.8 3dok5 27.9 3dok5 25.2 3dok5 24.3

3dok4 17.0 3dok4 19.4 3dok4 9.1 3dok4 11.9 3dok4 15.8

3dok7 20.7 3dok7 21.0 3dok7 20.5 3dok7 18.8 3dok7 18.6

3dok13 14.3 3dok13 14.4 3dok13 11.8 3dok13 11.6 3dok13 14.2 compos 17.3 compos 19.4 compos 19.1 compos 16.9 compos 20.8

;

proc anova;

class strain;

model nitrogen=strain;

means strain/duncan waller;

means strain/lsd tukey cldiff;

run;

输出分析带有均值比较的单因子设计

Class Level Information

Class Levels Values

strain 6 3dok1 3dok13 3dok4 3dok5 3dok7 compos

Number of observations 30

Dependent Variable: nitrogen

Source DF Sum of Squares Mean Square F Value Pr > F Model 5 847.046667 169.409333 14.37 <.0001 Error 24 282.928000 11.788667

Corrected Total 29 1129.974667

R-Square Coeff Var Root MSE nitrogen Mean

0.749616 17.26515 3.433463 19.88667

Source DF Anova SS Mean Square F Value Pr > F strain 5 847.0466667 169.4093333 14.37 <.0001

第二章 常用统计技术(1)方差分析

第二章常用统计技术 第二章常用统计技术 【考试趋势】 单选4-5题,多选6-8题,综合分析7-8题。总分值30-40分。总分170分。占比20%左右。 【大纲考点】 一、方差分析 (一)方差分析基本概念 1.掌握因子、水平和方差分析的三项基本假定 2.熟悉方差分析是在同方差假定下检验多个正态均值是否相等的统计方法(难点) (二)方差分析方法 1.掌握单因子的方差分析方法(平方和分解、总平方和、因子平方和、误差平方和,自由由度、f比、显著性) (重点) 2.了解重复数不等情况下的方差分析方法。(难点) 二、回归分析 主要研究定量因子,也就是变量分析 (一)散布图与相关系数 1.掌握散布图的作用与做法 2.掌握样本相关系数的定义、计算及其检验方法(重点,难点) (二)一元线性回归 1.掌握用最小二乘估计建立一元线性回归方程的方法(重点,难点) 2.掌握一元线性回归方程的检验方法(重点,难点) 3.熟悉一元线性回归方法在预测中的应用 (三)了解可化为一元线性回归的曲线回归问题 三、试验设计 三、试验设计

(一)基本概念与正交表 1.了解试验设计的必要性 2.熟悉常用正交表及正交表的特点 (二)正交试验设计与分析 1.熟悉使用正交表进行试验设计的步骤 2.掌握无交互作用的正交试验设计的直观分析法与方差分析法 3.熟悉贡献率的分析方法 4.了解有交互作用的正交试验设计的方差分析法 5.熟悉最佳水平组合的选取 【考点解读】 三种统计技术的特点:新版教材第74页。 第一节方差分析 第一节方差分析 一、方差分析 1、三项基本假定-(掌握p75) 为什么要方差分析?目的和用途。方差分析不是简单分析方差,通过方差分析因子的显著与否。方差只是手段。对结果的影响是否显著。要用到假设检验。零假设,备择假设。 但是假设检验的前提条件是:正态分布,等方差,观测相互独立。也就是大纲里讲的三项基本假定。 2、方差分析的统计检验-(掌握p76) 那么如何在同方差假定下检验多个正态均值是否相等呢?其实统计检验的 问题。大家想一下,零假设,备择假设是什么? 同一个因子,有不同水平,每个水平重复多次试验就得到一个分布。有几个水平就有几个分布,方差分析是看分布的均值是否相等。相等,说明因子变动对结果没影响,相差越大就越显著! 3、单因子的方差分析-(掌握p76-79)

第10章单因素方差分析

第10章 单因素方差分析 单因素方差分析(0ne-Way ANOV A),又称一维方差分析,它能够对单因素多个独立样本 的均数进行比较,可以用10种检验方法对变量间的均数进行两两比较(即多重比较检验)并给出方差分析表,还可以作出5种类型图形(Type of plots)和2种均数图形(Means plot options) 10.1 单因素方差分析的计量资料 [例10—1] 某社区随机抽取了30名糖尿病患者、IGT 异常人和正常人进行载脂蛋白 (mg /dL)测定,结果示于表10—1。试问3组人群的载脂蛋白测定结果含量是否相同?(倪宗瓒.卫生统计学.第4版,北京:人民卫生出版社,2001.50) 组别(B ) 载脂蛋白测定 糖尿病(1) 85.7 105.2 109.5 96.0 115.2 95.3 110.0 100.0 125.6 111.0 106.5 96.0 124.5 105.1 76.4 95.3 110.0 95.2 99.0 120.0 144.0 117.0 110.0 109.0 103.0 123.0 127.0 121.0 159.0 115.0 IGT 异常(2) 正常人(3) 本例是一个完全随机设计的单因素方差分析。已建立SAS 数据集文件并保存Sasuser.onewav4。 (1)进入SAS /Win(v8)系统,单击Solutions -Analysis -Analyst ,得到分析家窗口。 (2)单击File-open By SAS Name —Sasuser-0neway4—0K ,调入数据文件。 (3)在“分析家”窗口单击Statistics-ANOV A-One way ANOV A ,得到图10—1所示对话框。本例因变量(Dependent)为A(载脂蛋白),单击A —Dependent 。自变量(1ndependent): B(3种人的组别),单击B —Independent 。 图10.1 0ne —way ANOV A :0neway4(单因素方差分析)对话框 (4)单击Tests 按钮,得到图10—2所示对话框。在此对话框的ANOV A(F —检验)选项 中可进行如下设置。 Analysis of variance ,方差分析。 Welch ’s variance-weighted ANOV A ,威尔奇方差—权重方差分析。 Tests for equal variance ,相等方差检验,即方差齐性检验。 Barlett ’s test ,巴特尼特检验。 Brown-Forsythe test ,布朗—福塞斯检验。 Levene ’s test ,列文检验。本例以上都选。

spss 多因素方差分析例子

作业8:多因素方差分析 1,data0806-height是从三个样方中测量的八种草的高度,问高度在三个取样地点,以及八种草之间有无差异?具体怎么差异的? 打开spss软件,打开data0806-height数据,点击Analyze->General Linear Model->Univariate 打开: 把plot和species送入Fixed Factor(s),把height送入Dependent Variable,点击Model 打开:

选择Full factorial,Type III Sum of squares,Include intercept in model(即全部默认选项),点击Continue回到Univariate主对话框,对其他选项卡不做任何选择, 结果输出:

因无法计算MM e rror,即无法分开MM intercept和MM error,无法检测interaction的影响,无法进行方差分析, 重新Analyze->General Linear Model->Univariate打开: 选择好Dependent Variable和Fixed Factor(s),点击Model打开: 点击Custom,把主效应变量species和plot送入Model框,点击Continue回到Univariate主对话框,点击Plots:

Univariate对话框,点击Options:

把OVERALL,species, plot送入Display Means for框,选择Compare main effects,Bonferroni,点击Continue回到Univariate对话框, 输出结果: 可以看到:SS species=33.165,df species=7,MS species=4.738;SS plot=33.165,df plot=7,MS plot=4.738;SS error=21.472,df error=14,MS error=1.534; Fspecies=3.089,p=0.034<0.05;Fplot=12.130,p=0.005<0.01; 所以故认为在5%的置信水平上,不同样地,不同物种之间的草高度是存在差异的。

第10章 方差分析与试验设计

第10章 方差分析与试验设计 三、选择题 1.方差分析的主要目的是判断 ( )。 A. 各总体是否存在方差 B. 各样本数据之间是否有显著差异 C. 分类型自变量对数值型因变量的影响是否显著 D. 分类型因变量对数值型自变量的影响是否显著 2.在方差分析中,检验统计量F是 ( )。 A. 组间平方和除以组内平方和 B. 组间均方除以组内均方 C. 组间平方除以总平方和 D. 组间均方除以总均方 3.在方差分析中,某一水平下样本数据之间的误差称为 ( )。 A. 随机误差 B. 非随机误差 C. 系统误差 D. 非系统误差 4.在方差分析中,衡量不同水平下样本数据之间的误差称为 ( )。 A. 组内误差 B. 组间误差 C. 组内平方 D. 组间平方 5.组间误差是衡量不同水平下各样本数据之间的误差,它 ( )。 A. 只包括随机误差 B. 只包括系统误差 C. 既包括随机误差,也包括系统误差 D. 有时包括随机误差,有时包括系统误差 6.组内误差是衡量某一水平下样本数据之间的误差,它 ( )。 A. 只包括随机误差 B. 只包括系统误差 C. 既包括随机误差,也包括系统误差 D. 有时包括随机误差,有时包括系统误差 7.在下面的假定中,哪一个不属于方差分析中的假定 ( )。 A. 每个总体都服从正态分布 B. 各总体的方差相等 C. 观测值是独立的 D. 各总体的方差等于0 8.在方差分析中,所提出的原假设是210:μμ=H = ···=k μ,备择假设是( ) A. ≠≠H 211:μμ···k μ≠ B. >>H 211:μμ···k μ> C. <

多因素方差分析

多因素方差分析 多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。SPSS调用“Univariate”过程,检验不同之间因变量均数,由于受不同因素影响是否有差异的问题。在这个过程中可以分析每一个因素的作用,也可以分析因素之间的交互作分析协方差,以及各因素变量与协变量之间的交互作用。该过程要求因变量是从多元正态总体随机采样得来,且总体中各单元的方差可以通过方差齐次性检验选择均值比较结果。因变量和协变量必须是数值型变量,协变量与因变量不彼此独立。因素变量是分类变量数值型也可以是长度不超过8的字符型变量。固定因素变量(Fixed Factor)是反应处理的因素;随机因素是随机地从总体中抽取的因 [例子] 研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表5-7。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著 表5-7 不同温度与不同湿度粘虫发育历期表 数据保存在“DATA5-2.SAV”文件中,变量格式如图5-1。

1)准备分析数据 在数据编辑窗口中输入数据。建立因变量历期“历期”变量,因素变量温度“A”,湿度为“B”变量,重复变量“重复”。然后输数值,如图5-6所示。或者打开已存在的数据文件“DATA5-2.SAV”。 图5-6 数据输入格式 2)启动分析过程 点击主菜单“Analyze”项,在下拉菜单中点击“General Linear Model”项,在右拉式菜单中点击“Univariate”项,系统打开单因素方差分析设置窗口如图5-7。

图5-7 多因素方差分析窗口 3)设置分析变量 设置因变量:在左边变量列表中选“历期”,用向右拉按钮选入到“Dependent Variable:”框中。 设置因素变量:在左边变量列表中选“a”和“b”变量,用向右拉按钮移到“Fixed Factor(s):”框中。可以选择多个因素变量存容量的限制,选择的因素水平组合数(单元数)应该尽量少。 设置随机因素变量:在左边变量列表中选“重复”变量,用向右拉按钮移到“到Random Factor(s)”框中。可以选择多个随机变量 设置协变量:如果需要去除某个变量对因素变量的影响,可将这个变量移到“Covariate(s)”框中。 设置权重变量:如果需要分析权重变量的影响,将权重变量移到“WLS Weight”框中。 4)选择分析模型 在主对话框中单击“Model”按钮,打开“Univariate Model”对话框。见图5-8。 图5-8 “Univariate Model” 定义分析模型对话框

spss教程第二章均值比较检验与方差分析要点

第二章均值比较检验与方差分析 在经济社会问题的研究过程中,常常需要比较现象之间的某些指标有无显著差异,特别当考察的样本容量n比较大时,由随机变量的中心极限定理知,样本均值近似地服从正态分布。所以,均值的比较检验主要研究关于正态总体的均值有关的假设是否成立的问题。 ◆本章主要内容: 1、单个总体均值的 t 检验(One-Sample T Test); 2、两个独立总体样本均值的 t 检验(Independent-Sample T Test); 3、两个有联系总体均值均值的 t 检验(Paired-Sample T Test); 4、单因素方差分析(One-Way ANOVA); 5、双因素方差分析(General Linear Model Univariate)。 ◆假设条件:研究的数据服从正态分布或近似地服从正态分布。 在Analyze菜单中,均值比较检验可以从菜单Compare Means,和General Linear Model得出。如图2.1所示。 图2.1 均值的比较菜单选择项 §2.1 单个总体的t 检验(One-Sample T Test)分析 单个总体的 t 检验分析也称为单一样本的 t 检验分析,也就是检验单个变量的均值是否与假定的均数之间存在差异。如将单个变量的样本均值与假定的常数相比较,通过检验得出预先的假设是否正确的结论。

例1:根据2002年我国不同行业的工资水平(数据库SY-2),检验国有企业的职工平均年工资收入是否等于10000元,假设数据近似地服从正态分布。 首先建立假设:H0:国有企业工资为10000元; H1:国有企业职工工资不等于10000元 打开数据库SY-2,检验过程的操作按照下列步骤: 1、单击Analyze →Compare Means →One-Sample T Test,打开One-Sample T Test 主对话框,如图2.2所示。 图2.2 一个样本的t检验的主对话框 2、从左边框中选中需要检验的变量(国有单位)进入检验框中。 3、在Test Value框中键入原假设的均值数10000。 4、单击Options按钮,得到Options对话框(如图2.3),选项分别是置信度(默认项是95%)和缺失值的处理方式。选择后默认值后返回主对话框。 图2.3 一个样本t检验的Options对话框 5、单击OK,得输出结果。如表2.1所示。 表2.1(a).数据的基本统计描述 One-Sample Statistics

双因素试验的方差分析(精)

实验三 双因素试验的方差分析 实验目的:1掌握单因素实验方差分析的方法与步骤; 2正确分析输出结果中的各参数,并得出正确结论。 试验内容: 某种火箭使用4种燃料,3种推进器进行射程试验。在每种燃料与每种推进器的组合下火箭各发射两次,射程数据见表3.1。 表3.1 火箭的射程数据 试在水平05.0=α下,检验不同燃料(因素)A 、不同推进器(因素)B 下射程是否有显著差异?交互作用是否显著? 操作步骤: 1.在excel 的工作表中输入如表3.1所示的的样本数据。 2.点击“工具—数据分析—方差分析:可重复双因素方差分析”,在弹出对话框的输入区域,拖动鼠标选择样本值A1:D9;每一样本的行数,输入2;显著性水平α设置为0.05,如图 3.1所示。

3.点击确定,输出参数的窗口如图3.2所示。 图3.2 应用excel“数据分析”功能求双因素等重复方差分析的有关参数结果分析: 图3.2 中仅列示了输出结果中的方差分析表。“样本”即燃料因子,“列”即推进器因子,“交互”为燃料和推进器因子的交互作用,SS 为平方和;df 是自由度;P-value 为P 值,即所达到的临界显著水平;F crit 是Fα(t-1,N-t)的值。 由方差分析表可知,因子A (燃料)的作用是一般显著的(P-value的值为0.025969<0.05);因子B(推进器)的作用是高度显著的(P-value的值为0.003506<0.01);而交互作用是极其显著的(P-value的值为6.15E-05<<0.01),这说明燃料的作用于与推进器之间有着密切的关 系,也即每种推进器都有各自最合自得最佳燃料。

第七章 方差分析.

第七章方差分析 方差分析(analysis of variance)是检验多个总体均值是否相等的统计方法。目的:通过检验多个总体的均值是否相等来判断定类变量对定距变量是否有显著影响。 第一节方差分析引述 一、方差分析的基本思想和原理 例1:想了解四个行业的服务质量如何,得到以下数据: 消费者对四个行业的投诉次数 自变量行业是分类变量,因变量被投诉次数是定距变量。 想知道行业对被投诉次数的影响,就要分析不同行业的被投诉次数之间是否有显著差异,即检验四个行业被投诉次数的总体均值是否相等(注意不是样本均值)。如果相等,行业对投诉次数无影响;如果均值不全相等,有影响。 为什么不用均值检验的方法? 均值检验一次只研究两个样本,要检验4个总体均值是否相等,需要6次检验(1-2,1-3,1-4,2-3,2-4,3-4)。每次检验犯第一类错误的概率是α,作多次检验会增加犯错概率和降低置信水平。而方差分析同时将所有样本信息结合在一起,增加了分析的可靠性,降低了犯错的概率,避免拒绝真实的原假设。如何用样本均值检验总体均值即判断行业对投诉次数是否有影响? 各行业被投诉次数的样本均值不相等,是否可说明不同行业被投诉次数有明显差异?不一定,也许各行业总体均值无差异,仅仅因为抽样的随机性造成了彼此之间的差异/随机误差。(来自同一个总体的各个样本之间因为随机性而造成的均值差异和来自不同总体的样本之间的均值差异在散点图上是有差异的。)所以,方差分析就是对于差异来源进行分析(来源于随机误差还是不同总体间的真实差异),从而判断不同总体均值是否相等。 在例1中,在同一行业(同一总体)下,样本的各观测值不同,其差异可看作抽样的随机性造成的,称之为随机误差。在不同行业(不同总体)下,各观测

第2章单因素方差分析

第12章方差分析(Analysis of V ariance) 方差分析是鉴别各因素效应的一种有效统计方法,它是通过实验观察某一种或多种因素的变化对实验结果是否带来显著影响,从而选取最优方案的一种统计方法。 在科学实验和生产实践中,影响一件事物的因素往往很多,每一个因素的改变都有可能影响产品产量和质量特征。有的影响大些,有的影响小些。为了使生产过程稳定,保证优质高产,就有必要找出对产品质量有显著影响的那些因素及因素所处等级。方差分析就是处理这类问题,从中找出最佳方案。 方差分析开始于本世纪20年代。1923年英国统计学家R.A. Fisher 首先提出这个概念,(ANOV A)。因当时他在Rothamsted农业实验场工作,所以首先把方差分析应用于农业实验上,通过分析提高农作物产量的主要因素。Fisher1926年在澳大利亚去世。现在方差分析方法已广泛应用于科学实验,医学,化工,管理学等各个领域,范围广阔。 在方差分析中,把可控制的条件称为“因素”(factor),把因素变化的各个等级称为“水平”或“处理”(treatment)。 若是试验中只有一个可控因素在变化,其它可控因素不变,称之为单因素试验,否则是多因素试验。下面分别介绍单因素和双因素试验结果的方差分析。 1.1 单因素方差分析(One Way Analysis of Variance) 1.一般表达形式 2.方差分析的假定前提 3.数学模形 4.统计假设 5.方差分析:(1)总平方和的分解;(2)自由度分解;(3)F检验 6.举例 7.多重比较 1.1.1 一般表达形式 首先通过一个例子引出单因素方差分析方法。某农业科研所新培养了四种水稻品种,分别用A1,A2,A3,A4表示。每个品种随机选种在四块试验田中,共16块试验田。除水稻品种之外,尽量保持其它条件相同(如面积,水分,日照,肥量等),收获后计算各试验田中产量如下表: 通过这些数据要考察四个不同品种的单位产量,是否有显著性差异。类似的例子很多,如劳动生产率差异,汽车燃油消耗,金属材料淬火温度等问题。上述问题可控实验条件是“种子”。所以种子是因素。把不同的品种A1,A2,A3,A4称为“水平”。1,2,3,4表示试验

《应用数理统计》吴翊李永乐第五章方差分析课后作业参考答案详解

第五章 方差分析 课后习题参考答案 5.1 下面给出了小白鼠在接种三种不同菌型伤寒杆菌后的存活日数: 设小白鼠存活日数服从方差相等的正态分布,试问三种菌型的平均存活日数有无显著差异?(01.0=α) 解:(1)手工计算解答过程 提出原假设:()3,2,10:0==i H i μ 记 167.20812 11112 =???? ??-=∑∑∑∑====r i n j ij r i n j ij T i i X n X S 467.7011 2 11211=???? ??-???? ??=∑∑∑ ∑====r i n j ij r i n j ij i A i i X n X n S 7.137=-=A T e S S S 当 0H 成立时, ()()()r n r F r n S r S F e A --- -= ,1~/1/ 本题中r=3 经过计算,得方差分析表如下: 查表得 ()()35.327,2,195.01==---F r n r F α且F=6.909>3.35,在95%的置信度下,拒绝原 假设,认为不同菌型伤寒杆菌对小白鼠的存活日数有显著影响。 (2)软件计算解答过程

从上表可以看出,菌种不同这个因素的检验统计量F 的观测值为6.903,对应的检验概率p 值为0.004,小于0.05,拒绝原假设,认为菌种之间的差异对小白鼠存活日数有显著影响。 5.2 现有某种型号的电池三批,他们分别是甲、乙、丙三个工厂生产的,为评论其质量,各随机抽取6只电池进行寿命试验,数据如下表所示: 试在显著水平0.05α=下,检验电池的平均寿命有无显著性差异?并求 121323,μμμμμμ---及的95%置信区间。这里假定第i 种电池的寿命 2i X (,)(1,2,3)i N i μσ=。 解:手工计算过程: 1.计算平方和 其检验假设为:H0:,H1:。 2.假设检验: 所以拒绝原假设,即认为电池寿命和工厂显著相关。 3.对于各组之间的均值进行检验。 6 .615])394.44()3930()396.42[(*4)()(4 .216)3.28108.15(*4*))(1()(832 429.59*14*))(1()(2221 22 1 21 22 222=-+-+-=-=-==++=-==-===-==-=∑∑∑∑∑∑∑∑∑===r i i i i A r i i i r i i i i ij e ij T X X n X X S S n S n X X S s n ns X X S 0684 .170333 .188 .30712/4.2162/6.615)/()1/(===--= r n S r S F e A 89 .3)12,2(),1(95.01==-->-F r n r F F α

第10章__方差分析与试验设计

第10章 方差分析与试验设计 三、选择题 1. C 2. B 3. A 4. B 5. C 1.方差分析的主要目的是判断 ( )。 A. 各总体是否存在方差 B. 各样本数据之间是否有显著差异 C. 分类型自变量对数值型因变量的影响是否显著 D. 分类型因变量对数值型自变量的影响是否显著 2.在方差分析中,检验统计量F是 ( )。 A. 组间平方和除以组内平方和 B. 组间均方除以组内均方 C. 组间平方除以总平方和 D. 组间均方除以总均方 3.在方差分析中,某一水平下样本数据之间的误差称为 ( )。 A. 随机误差 B. 非随机误差 C. 系统误差 D. 非系统误差 4.在方差分析中,衡量不同水平下样本数据之间的误差称为 ( )。 A. 组内误差 B. 组间误差 C. 组内平方 D. 组间平方 5.组间误差是衡量不同水平下各样本数据之间的误差,它 ( )。 A. 只包括随机误差 B. 只包括系统误差 C. 既包括随机误差,也包括系统误差 D. 有时包括随机误差,有时包括系统误差 6. A 7. D 8. D 9. A 10.A 6.组内误差是衡量某一水平下样本数据之间的误差,它 ( )。 A. 只包括随机误差 B. 只包括系统误差 C. 既包括随机误差,也包括系统误差 D. 有时包括随机误差,有时包括系统误差 7.在下面的假定中,哪一个不属于方差分析中的假定 ( )。 A. 每个总体都服从正态分布 B. 各总体的方差相等 C. 观测值是独立的 D. 各总体的方差等于0 8.在方差分析中,所提出的原假设是210:μμ=H = ···=k μ,备择假设是( ) A. ≠≠H 211:μμ···k μ≠ B. >>H 211:μμ· ··k μ> C. <

第10章__方差分析与试验设计

第10章方差分析与试验设计 三、选择题 1.C 2.B 3.A 4.B 5.C 1.方差分析的主要目的是判断()。 A.各总体是否存在方差 B.各样本数据之间是否有显著差异 C.分类型自变量对数值型因变量的影响是否显著 D.分类型因变量对数值型自变量的影响是否显著 2.在方差分析中,检验统计量F是()。 A.组间平方和除以组内平方和B.组间均方除以组内均方 C.组间平方除以总平方和D.组间均方除以总均方 3.在方差分析中,某一水平下样本数据之间的误差称为()。 A.随机误差B.非随机误差C.系统误差D.非系统误差 4.在方差分析中,衡量不同水平下样本数据之间的误差称为()。 A.组内误差B.组间误差C.组内平方D.组间平方 5.组间误差是衡量不同水平下各样本数据之间的误差,它()。 A.只包括随机误差 B.只包括系统误差 C.既包括随机误差,也包括系统误差 D.有时包括随机误差,有时包括系统误差 6.A 7.D8.D9.A10.A 6.组内误差是衡量某一水平下样本数据之间的误差,它()。 A.只包括随机误差 B.只包括系统误差 C.既包括随机误差,也包括系统误差 D.有时包括随机误差,有时包括系统误差 7.在下面的假定中,哪一个不属于方差分析中的假定()。 A.每个总体都服从正态分布B.各总体的方差相等 C.观测值是独立的D.各总体的方差等于0 8.在方差分析中,所提出的原假设是0:=···= ,备择假设是() 12 k A.1:12···kB.1:12···k C. 1:···kD.1:1,2,···,k不全相等 12 9.单因素方差分析是指只涉及()。 A.一个分类型自变量B.一个数值型自变量 C.两个分类型自变量D.两个数值型因变量 10.双因素方差分析涉及()。 A.两个分类型自变量B.两个数值型自变量 C.两个分类型因变量D.两个数值型因变量 11.B12.C

SPSS多因素方差分析

体育统计与SPSS读书笔记(八)—多因素方差分析(1) 具有两个或两个以上因素的方差分析称为多因素方差分析。 多因素是我们在试验中会经常遇到的,比如我们前面说的单因素方差分析的时候,如果做试验的不是一个年级,而是多个年纪,那就成了双因素了:不同教学方法的班级,不同年级。如果再加上性别上的因素,那就成了三因素了。如果我们把实验前和试验后的数据用一个时间的变量来表示,那又多了一个时间的因素。如果每个年级都是不同的老师来上,那又多了一个老师的因素,等等等等,所以我们在设计试验的时候都要进行充分考虑,并确定自己只研究哪些因素。 下面用例子的形式来说说多因素方差分析的运用。还是用前面说单因素的例子,前面的例子说了只在五年级抽三个班进行不同教学方法的试验,现在我们还要在初二和高二各抽三个班进行不同教学方法的试验。形成年级和不同教学法班级双因素。 分析: 1.根据实验方案我们划出双因素分析的表格,可以看出每个单元格都是有重复数据(也就是不只一个数据), 年级 不同教学方法的班级 定性班 定量班 定性定量班 五年级 (班级每个人) (班级每个人) (班级每个人) 初中二年级 (班级每个人) (班级每个人) (班级每个人) 高中二年级 (班级每个人) (班级每个人) (班级每个人) 2.因为有重复数据,所以存在在数据交互效应的可能。我们来看看交效应的含义:如果在A因素的不同水平上,B因素对因变量的影响不同,则说明A、B两因素间存在交互作用。交互作用是多因素实验分析的一个非常重要的内容。如因素间存在交互作用而又被忽视,则常会掩盖因素的主效应的显著性,另一方面,如果对因变量Y,因素A与B之间存在交互作用,则已说明这两个因素都Y对有影响,而不管其主效应是否具有显著性。在统计模型中考虑交互作用,是系统论思想在统计方法中的反映。在大多数场合,交互作用的信息比主效应的信息更为有用。根据上面的判断。根据上面的说法,我也无法判断是否有交互作用,不像身高和体重那么直接。这里假设他们之间有交互作用。

多因素方差分析

多因素方差分析

————————————————————————————————作者:————————————————————————————————日期: ?

多因素方差分析 多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。SPSS调用“Univariate”过程,检验不同水平组合之间因变量均数,由于受不同因素影响是否有差异的问题。在这个过程中可以分析每一个因素的作用,也可以分析因素之间的交互作用,以及分析协方差,以及各因素变量与协变量之间的交互作用。该过程要求因变量是从多元正态总体随机采样得来,且总体中各单元的方差相同。但也可以通过方差齐次性检验选择均值比较结果。因变量和协变量必须是数值型变量,协变量与因变量不彼此独立。因素变量是分类变量,可以是数值型也可以是长度不超过8的字符型变量。固定因素变量(Fixed Factor)是反应处理的因素;随机因素是随机地从总体中抽取的因素。 [例子] 研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表5-7。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。 表5-7 不同温度与不同湿度粘虫发育历期表 表5-7不同温度与不同湿度粘虫发育历期表 相对湿度(%) 温度℃重复 1 234 100 25 91.2 95.0 93.8 93.0 27 87.6 84.7 81.2 82.4 2979.2 67.075.770.6 31 65.2 63.3 63.663.3 8025 93.289.3 95.1 95.5 27 85.8 81.6 81.0 84.4 29 79.0 70.8 67.7 78.8 31 70.7 86.5 66.9 64.9 40 25 100.2103.3 98.3 103.8 27 90.691.7 94.5 92.2 2977.2 85.8 81.779.7 3173.673.2 76.4 72.5 1)准备分析数据 在数据编辑窗口中输入数据。建立因变量历期“历期”变量,因素变量温度“A”,湿度为“B”变量,重复变量“重复”。然后输入对应的数值,如图5-6所示。 图5-6数据输入格式

07第七章 假设检验与方差分析 习题答案

第七章 假设检验与方差分析 习题答案 一、名词解释 用规范性的语言解释统计学中的名词。 1. 假设检验:对总体分布或参数做出某种假设,然后再依据抽取的样本信息,对假设是否正确做出统计判断,即是否拒绝这种假设。 2. 原假设:又叫零假设或无效假设,是待检验的假设,表示为 H 0,总是含有等号。 3. 备择假设:是零假设的对立,表示为 H 1,总是含有不等号。 4. 单侧检验:备择假设符号为大于或小于时的假设检验。 5. 显著性水平:原假设为真时,拒绝原假设的概率。 6. 方差分析:是检验多个总体均值是否相等的一种统计分析方法。 二、填空题 根据下面提示的内容,将适宜的名词、词组或短语填入相应的空格之中。 1. u ,n x σμ0 -,标准正态; ),(),(2/2/+∞--∞n z n z σ σ αα 2. 参数检验,非参数检验 3. 弃真,存伪 4. 方差 5. 卡方, F 6. 方差分析 7. t ,u 8. n s x 0 μ-,不拒绝 9. 单侧,双侧 10.新产品的废品率为5% ,0.01 11.相关,总变异,组间变异,组内变异 12.总变差平方和=组间变差平方和+组内变差平方和 13.连续,离散 14.总体均值 15.因子,水平 16.组间,组内 17.r-1,n-r 18. 正态,独立,方差齐

三、单项选择 从各题给出的四个备选答案中,选择一个最佳答案,填入相应的括号中。 1.B 2.B 3. B 4.A 5. C 6. B 7. C 8. A 9. D 10. A 11. D 12. C 四、多项选择 从各题给出的四个备选答案中,选择一个或多个正确的答案,填入相应的括号中。 1.AC 2.A 3.B 4.BD 5. AD 五、判断改错 对下列命题进行判断,在正确命题的括号内打“√”;在错误命题的括号内打“×”,并在错误的地方下划一横线,将改正后的内容写入题下空白处。 1. 在任何情况下,假设检验中的两类错误都不可能同时降低。 ( × ) 样本量一定时 2. 对于两样本的均值检验问题,若方差均未知,则方差分析和t 检验均可使用,且两者检验结果一致。 ( √ ) 3. 方差分析中,组间离差平方和总是大于组内离差平方和。( × ) 不一定 4. 在假设检验中,如果在显著性水平0.05下拒绝了 00:μμ≤H ,则在同一水平一定可以拒绝假设00:μμ=H 。( × ) 不一定 5. 为检验k 个总体均值是否显著不同,也可以用t 检验,且与方差分析相比,犯第一类错误的概率不变。( × ) 会增加 6. 方差分析中,若拒绝了零假设,则认为各个总体均值均有显著性差异。( × ) 不完全相等 六、简答题 根据题意,用简明扼要的语言回答问题。 1. 假设检验与统计估计有何区别与联系? 【答题要点】 假设检验是在给定显著性水平下,计算出拒绝域,并根据样本统计量信息来做出是否拒

spssau三因素方差分析操作

三因素方差 当X为定类数据,Y为定量数据时,通常使用的是方差分析进行差异研究。X的个数为一个时,我们称之为单因素方差;X为2个时则为双因素方差;X为3个时则称作三因素方差,依次下去。当X超过1个时,统称为多因素方差。 在实验研究中,比如研究者测试某新药对于胆固醇水平是否有疗效;研究者共招募72名被试,男女分别为36名,以及男女分别再细分使用新药和普通药物;同时高血压患者对于新药可能有干扰,因而研究者将被试是否患高血压也纳入考虑范畴中。因而最终,X共分为三个,分别是药物(旧药和新药)、性别,是否患高血压;Y为胆固醇水平。因而需要进行三因素方差分析即多因素方差分析。 特别提示: 对于双因素方差,三因素方差分析;SPSSAU单独提供研究方法,并且提供更多指标输 出比如交互效应或图形等; 如果是实验研究,建议使用双因素,或者三因素方差分析等; 针对X超过3个时,只能直接使用多因素方差分析; X均为定类数据,Y为定量数据。 SPSSAU分析结果表格示例如下:

三因素方差案例 Contents 1背景 (2) 2理论 (2) 3操作 (2) 4 SPSSAU输出结果 (4) 5文字分析 (6) 6剖析 (6) 1背景 某研究者测试新药对于胆固醇水平是否有疗效;研究者共招募72名被试,男女分别为36名,并且男性或女性中是否高血压患者各为18名,并且当前被试的胆固醇水平基本均保持在6.5左右。最终X共分为三个,分别是药物(旧药和新药)、性别,是否患高血压;Y为胆固醇水平。 同时,明显的可以想到,实验前的胆固醇水平基数,很可能会影响到最终的胆固醇水平,因此“实验前胆固醇水平”是一个干扰因素,因此将其作为协变量纳入模型中。 2 理论 三因素方差分析,通常用于实验研究,如果某个X呈现出显著性,此时可接着使用单因素方差分析或者事后检验,继续对比具体差异情况。 特别提示: 三因素方差时,有可能涉及到交互作用研究(比如二阶效应或三阶效应),SPSSAU默 认不会进行输出,需要主动进行设置; 3因素方差时,共有3个X,因此二阶效应共涉及两两组合,一共为3个二阶交互项; 3因素方差时,共有3个X,3个X只会有一个组合,因而会1个三阶交互项; 针对X超过3个时,只能直接使用多因素方差分析; X均为定类数据,Y为定量数据。 3 操作 本例子中研究3个X对于Y的差异;X分别性别,是否高血压和药物,Y为‘胆固醇水平’,

三因素混合方差分析事后简单效应多重比较语法

概念笔记 Main effect 一个因素的独立效应,即其不同水平引起的方差变异。三因素的实验有三个主效应。把某一因素的一个水平同该因素的其他水平比较,不考虑其他因素。 Interaction 多个因素的联合效应,A因素的作用受到B因素的影响,即有交互——two-way interaction. 当一因素作用受到另外两个因素影响,即三因素交互three-way interaction. 重复测量一个因素的三因素混合设计3*2*2的混合设计 A3*B2*R2 【A, B为被试间因素】 需要分析的有—— A, B, R 各自主效应 二重交互作用,A*B, A*R, B*R 三重交互作用,A*B*C 结果发现, A, B为被试间因素,交互作用SIG 当二重交互作用SIG,需要进行simple effect检验。A因素水平在B因素某一水平上的变异。A在B1水平上的简单效应 A在B2水平上的简单效应 B在A1水平上的简单效应 B在A2水平上的简单效应 B在A3水平上的简单效应 如果三重交互作用SIG,需要进行三因素的简单简单效应分析simple simple effect. 某一因素的水平在另外两个因素的水平结合上的效应 在A1B1水平结合上,R1 与R2 差异 在A1B2水平结合上,R1 与R2 差异 在A2B1水平结合上,R1 与R2 差异 在A2B2水平结合上,R1 与R2 差异 在A3B1水平结合上,R1 与R2 差异 在A3B2水平结合上,R1 与R2 差异

重复测量方差分析之后,如果三重交互作用显著,需要编辑语法, 得出三个因素各自的简单效应 某一因素在其他两个因素的某一实验条件内的简单效应检验 三因素重复测量方差分析对应的会有3种简单效应检验结果 SPSS在输出简单效应检验结果的同时,也会报告多重比较结果,会有更直观的对比结果。 如果三重交互作用SIG,需要进行简单简单效应检验。 固定某两个因素水平组合,考察研究者最感兴趣的那个变量的效应。 MANOV A R1 R2 BY A(1,3) B(1,2) /WSFACTORS=R(2) /PRINT=CELLINFO(MEANS) /WSDESIGN /DESIGN /WSDESIGN=R /DESIGN=MWITHIN B(1) WITHIN A(1) MWITHIN B(2) WITHIN A(1) MWITHIN B(1) WITHIN A(2) MWITHIN B(2) WITHIN A(2) MWITHIN B(1) WITHIN A(3) MWITHIN B(2) WITHIN A(3) 上述语法内容是检验被试内变量R在被试间变量A, B 上的简单简单效应。 如果想检验某一被试间变量A在被试内变量R和另一个被试间变量B上的简单简单效应MANOV A R1 R2 BY A(1,3) B(1,2) /WSFACTORS=R(2) /PRINT=CELLINFO(MEANS) /WSDESIGN /DESIGN /WSDESIGN=MWITHIN C(1) MWITHIN C(2) /DESIGN=A WITHIN B(1) A WITHIN B(2)

第五章方差分析作业

第五章 方差分析 5.2 现有某种型号的电池三批,他们分别是甲、乙、丙三个工厂生产的,为评论其质量,各随机抽取6只电池进行寿命试验,数据如下表所示: 121323,μμμμμμ---及的95%置信区间。这里假定第i 种电池的寿命 2i X (,)(1,2,3)i N i μσ= 。 解: 一、 手工计算过程: 1.计算平方和 其检验假设为:H 0:,H 1:。 2.假设检验: 所以拒绝原假设,即认为电池寿命和工厂显著相关。 3.对于各组之间的均值进行检验。 对于各组之间的均值进行检验有LSD-t 检验和q 检验。SPSS 选取LSD 检验(最小显著差t 检验),原理如下: 其检验假设为:H 0:,H 1:。 6 .615])394.44()3930()396.42[(*4)()(4 .216)3.28108.15(*4*))(1()(832 429.59*14*))(1()(2221 22 1 21 22 222=-+-+-=-=-==++=-==-===-==-=∑∑∑∑∑∑∑∑∑===r i i i i A r i i i r i i i i ij e ij T X X n X X S S n S n X X S s n ns X X S 0684 .170333 .188 .30712/4.2162/6.615)/()1/(===--= r n S r S F e A 89 .3)12,2(),1(95.01==-->-F r n r F F α

方法为:首先计算拒绝H 0,接受H 1所需样本均数差值的最小值,即LSD (the least significant difference ,LSD )。然后各对比组的与相 应的LSD 比较,只要对比组的大于或等于LSD ,即拒绝H 0,接受H 1;否 则,得到相反的推断结论。 LSD-t 检验通过计算各对比组的与其标准误之比值是否达到t 检验的界 值 )() 11(| |2 1B r N t n n MS x x B A e A -≥+--α 由此推算出最小显著差LSD ,而不必计算每一对比组的t 值 )11( )(||2 1B B A e A n n MS r N t x x LSD +-≥-=-α 如果两对比组的样本含量相同,即时,则 n MS r N t x x LSD e A 2)(||2 1B -≥-=-α 的置信区间为:B A μμ- )(n MS r N t x x e A 2)(||21B -±--α 则本题中 686.25 033 .18*22==n MS e 852.5686.2*1788.2686.2*)12(2 )(975.012 ===--t n MS r N t e α

相关主题
文本预览
相关文档 最新文档