SAS讲义 第二十五课方差分析
- 格式:doc
- 大小:710.00 KB
- 文档页数:30
第7章方差分析摘要:多组资料均数比较一般采用方差分析的方法,SAS中方差分析的功能非常全面,能实现方差分析功能的过程有ANOV A过程和GLM过程。
对于两个平均数的假设测验,一般采用t测验来完成,对于多个平均数的假设测验,若采用t测验两两进行,不仅非常麻烦,而且容易犯第一类错误。
方差或称均方,即标准差的平方,它是一个表示变异程度的量。
在一项试验或调查中往往存在着许多种影响生物性状变异的因素,这些因素有较重要的,也有较次要的。
方差分析就是将总变异分裂为各个因素的相应变异,作出其数量估计,从而发现各个因素在变异中所占的重要程度;而且除了可控制因素所引起的变异后,其剩余变异又可提供试验误差的准确而无偏的估计,作为统计假设测验的依据。
当试验结果受到多个因素的影响,而且也受到每个因素的各水平的影响时,为从数量上反映各因素以及各因素诸水平对试验结果的影响,可使用方差分析的方法。
SAS系统用于进行方差分析的过程主要有ANOV A过程和GLM过程,对于均衡数据的分析一般采用ANOV A过程,对于非均衡数据的分析一般采用GLM过程。
方差分析和协方差分析在SAS系统中由SAS/STAT模块来完成,其中我们常用的有ANOV A过程和GLM过程。
前者运算速度较快,但功能较为有限;后者运算速度较慢,但功能强大,我们做协方差分析时就要用到GLM过程。
本章将首先介绍方差分析所用数据集的建立技巧,然后重点介绍这两个程序步。
§7.1 方差分析概述一、方差分析的应用场合、基本思想和前提条件1.应用场合当影响因素是定性变量(一般称为分组变量或原因变量),观测结果是定量变量(一般称为结果变量或反应变量),常用的数据处理方法是对均数或均值向量进行假设检验。
若只有一个原因变量,而且其水平数k≤2,一元时常用U检验、t检验、秩和检验,多元时用多元检验(T2检验或wilks’^检验);若原因变量的水平数k≥3或原因变量的个数≥2,一元时常用下检验,也叫一元方差分析(简写成ANOV A)或非参数检验,多元时用多元方差分析(简写成MANOV A,其中最常用的是Wilks’^检验)。
SAS方差分析范文SAS方差分析(Analysis of Variance,简称ANOVA)是一种统计方法,用于比较两个或更多个组之间的平均值是否存在显著差异。
在SAS软件中,通过使用PROC ANOVA过程可以进行方差分析。
方差分析的基本原理是将总体方差分解为组内方差和组间方差,通过比较组间方差和组内方差的大小来判断组之间的平均值是否存在显著差异。
如果组间方差大于组内方差,即存在显著的组间差异,我们可以认为不同组之间的平均值是存在差异的。
在SAS中进行方差分析的步骤如下:1.数据准备:首先需要准备好要进行方差分析的数据集,确保数据的格式正确。
2.运行PROCANOVA:在SAS的程序窗口中输入PROCANOVA语句,并指定要进行分析的变量。
3.指定CLASS语句:在PROCANOVA语句中,使用CLASS语句指定用于分组的变量。
4.指定MODEL语句:在PROCANOVA语句中,使用MODEL语句指定要进行分析的因变量。
5.运行PROCANOVA:在程序窗口中执行PROCANOVA语句,SAS将会计算组间方差和组内方差,并给出相应的统计结果。
6.解读结果:根据分析结果,判断组间方差和组内方差的大小,以及是否存在显著差异。
如果组间方差显著大于组内方差,并且p值小于设定的显著性水平(通常为0.05),则可以认为不同组之间的平均值存在显著差异。
除了基本的单因素方差分析,SAS还提供了多种类型和方法的方差分析,例如,多因素方差分析、重复测量方差分析等。
这些方法可以通过在PROCANOVA语句中指定不同的选项来进行。
在进行方差分析时,还需要注意一些前提条件,例如,数据的独立性、正态性等。
如果数据不满足这些前提条件,可以考虑对数据进行转换或者使用非参数方法进行分析。
总之,SAS方差分析是一种有效的统计方法,可以用于比较两个或更多个组之间的平均值是否存在显著差异。
通过使用PROCANOVA过程,可以方便地进行方差分析,并得到相应的统计结果。
四、统计推断Ⅱ(方差分析——多个平均数的比较)(1)发布:admin 时间:2006-8-26四、统计推断Ⅱ(方差分析——多个平均数的比较)(1)方差分析是关于多个平均数的假设测验,其主要做法是将总变异的自由度和平方和剖分为不同来源的自由度和平方和,接着根据各变异来源方差的组成(期望均方)进行F测验,若F测验达显著,当处理效应为固定模型时,可对其处理平均数进行多重比较,当处理效应为随机模型时,可进一步进行方差分量的估计。
方差分析在生物科学领域中应用十分广泛。
用于方差分析的SAS过程主要有方差分析(ANOVA,analysis of variance)、广义线性模型(GLM,general linear models)。
此外还有方差分量估计(VARCOMP,variance components estimation)等。
其中ANOVA一般用于平衡资料(资料中各因素均衡搭配且没有发生数据缺失),非平衡资料的分析一般用GLM过程。
不同的试验设计有其相应的线性数学模型,而方差分析正是根据这一线性数学模型进行的,因此所获数据的试验设计决定了其分析方法(即自由度和平方和的分解以及度量各效应是否显著的尺度)。
正是如此,方差分析的SAS程序中模型的确定是关键。
以下结合教材内容顺序说明各种情况下的SAS程序编写方法。
(一) 单向分组资料(单因素完全随机试验)1.组内观察值数目相等的资料[例9] 以教材P111例6.10为例。
DATA tb611;DO trt=1 TO 5; (或DO trt=”A”,”B”,”C”,”D”,”E”; ) DO r=1 To 4;INPUT y @@;OUTPUT;END;END;CARDS;24 30 28 2627 24 21 2631 28 25 3032 33 33 2821 22 16 21;PROC ANOVA;CLASS trt;MODEL y=trt;MEANS trt/DUNCAN;RUN;这里PROC前是数据步,使用两套循环(DO…; END;)进行简化数据输入,这是在数据经过整理加工后的方法,当然也可直接按田间(或试验记录)顺序输入,这在后面会看到。
第二十五课 方差分析当影响观察结果的影响因素(原因变量或分组变量)的水平数大于2或原因变量的个数大于1个,一元时常用F 检验(也称一元方差分析),多元时用多元方差分析(最常用Wilks ’∧检验)。
一、 方差分析概述方差分析(analysis of variance )又称变异数分析,可简记为ANOV A ,主要用于检验计量资料中的两个或两个以上均值间差别显著性的方法。
当欲比较几组均值时,理论上抽得的几个样本,都假定来自正态总体,且有一个相同的方差,仅仅均值可以不相同。
还需假定每一个观察值都由若干部分累加而成,也即总的效果可分成若干部分,而每一部分都有一个特定的含义,称之谓效应的可加性。
所谓的方差是离均差平方和除以自由度,在方差分析中常简称为均方MS (mean square )。
1. 方差分析的基本思想根据效应的可加性,将总的离均差平方和分解成若干部分,每一部分都与某一种效应相对应,总自由度也被分成相应的各个部分,各部分的离均差平方除以相应部分的自由度得出各部分的均方,然后列出方差分析表算出F 值,作出统计推断。
方差分析的关键是总离均差平方和的分解,分解越细致,各部分的含义就越明确,对各种效应的作用就越了解,统计推断就越准确。
方差分析表的一般形式见表25.1所示:表25.1 方差分析表形式变异来源 source 离差平方和SS 自由度 df 均方 MS F 统计量FP 概率值P 效应S 1 SS 1 df 1 MS 1= SS 1/df 1 F 1(df 1, df e )= MS 1/ MS e P 1 效应S 2 SS 2 df 2 MS 2= SS 2/df 2F 2(df 2, df e )= MS 2/ MS eP 2 …… …… …… …… ……效应S m SS m df m MS m = SS m /df m F m (df m , df e )= MS m / MS eP m 误差S e SS edf eMS e = SS e /df e总变异S TSS T = SS 1+ SS 2+…+ SS m + SS edf T =df 1+ df 2+…+ df m + df eMS T = SS T /df TF T (df T , df e )= MS T / MS eP T表中变异来源一栏,可分为总变异(total ),误差(residual ),各个效应(effect )相对应的项。
第二十五课 方差分析当影响观察结果的影响因素(原因变量或分组变量)的水平数大于2或原因变量的个数大于1个,一元时常用F 检验(也称一元方差分析),多元时用多元方差分析(最常用Wilks ’∧检验)。
一、 方差分析概述方差分析(analysis of variance )又称变异数分析,可简记为ANOV A ,主要用于检验计量资料中的两个或两个以上均值间差别显著性的方法。
当欲比较几组均值时,理论上抽得的几个样本,都假定来自正态总体,且有一个相同的方差,仅仅均值可以不相同。
还需假定每一个观察值都由若干部分累加而成,也即总的效果可分成若干部分,而每一部分都有一个特定的含义,称之谓效应的可加性。
所谓的方差是离均差平方和除以自由度,在方差分析中常简称为均方MS (mean square )。
1. 方差分析的基本思想根据效应的可加性,将总的离均差平方和分解成若干部分,每一部分都与某一种效应相对应,总自由度也被分成相应的各个部分,各部分的离均差平方除以相应部分的自由度得出各部分的均方,然后列出方差分析表算出F 值,作出统计推断。
方差分析的关键是总离均差平方和的分解,分解越细致,各部分的含义就越明确,对各种效应的作用就越了解,统计推断就越准确。
方差分析表的一般形式见表25.1所示:表25.1 方差分析表形式变异来源 source 离差平方和SS 自由度 df 均方 MS F 统计量FP 概率值P 效应S 1 SS 1 df 1 MS 1= SS 1/df 1 F 1(df 1, df e )= MS 1/ MS e P 1 效应S 2 SS 2 df 2 MS 2= SS 2/df 2F 2(df 2, df e )= MS 2/ MS eP 2 …… …… …… …… ……效应S m SS m df m MS m = SS m /df m F m (df m , df e )= MS m / MS eP m 误差S e SS e df e MS e = SS e /df e总变异S TSS T = SS 1+ SS 2+…+ SS m + SS edf T =df 1+ df 2+…+ df m + df eMS T = SS T /df TF T (df T , df e )= MS T / MS eP T表中变异来源一栏,可分为总变异(total ),误差(residual ),各个效应(effect )相对应的项。
效应项与试验设计或统计分析的目的有关,一般有:主效应(包括各种因素),交互影响项(因素间的多级交互影响),协变量(来自回归的变异项),等等。
当分析和确定了各个效应项S 后,根据原始观察资料可计算出各个离均差平方和SS ,再根据相应的自由度df ,由公式MS=SS/df ,求出均方MS ,最后由相应的均方,求出各个变异项的F 值,F 值实际上是两个均方之比值,通常情况下,分母的均方是误差项的均方。
根据F 值的分子、分母均方的自由度f 1和f 2,在确定显著性水平为α情况下,由),(21f f F 临界值表查得单侧αF 界限值。
当αF F <时,则α>P ,不拒绝原假设0H ,说明不拒绝这个效应项的效应为0的原假设,也即这个效应项是可能对总变异没有实质影响的;如果αF F ≥,则α≤P ,拒绝原假设0H ,说明拒绝这个效应项的效应为0的原假设,也即这个效应项是很可能对总变异有实质影响的。
2. 方差分析的试验设计为了确定方差分析表中各个有关效应项,需要在试验设计阶段就作出安排,再根据设计要求进行试验,得出原始观察值,按原来设计方案算出方差分析表中的各项。
在试验设计阶段常需要作主要四个方面的考虑: 1) 研究的主要变量方差分析的主要变量,也称响应变量或因变量(dependent variable ),它是我们试验所要观察的主要指标。
一次试验时可以有多个观察指标,方差分析时也可以同时对多个因变量进行分析。
2) 因素和水平试验的因素(factor )可以是品种、人员、方法、时间、地区等等,因素所处的状态叫水平(level )。
在每一个因素下面可以分成若干水平。
例如,某工厂的原料来自四个不同地区,那么用不同地区的原料生产的产品质量是否一致呢?所要比较的地区就是因素,四个地区便是地区这一因素的四个水平。
当某个主要因素的各个水平间的主要因变量的均值呈现统计显著性时,必要时可作两两水平间的比较,称为均值间的两两比较。
3) 因素间的交互影响多因素的试验设计,有时需要分析因素间的交互影响(interaction ),2个因素间的交互影响称为一级交互影响,例如因素A 与因素B 的一级交互影响可记为A ×B ,3个因素间的交互影响称为二级交互影响,例如因素A 与因素B 与因素C 的二级交互影响可记为A ×B ×C 。
当交互影响项呈现统计不显著时,表明各个因素独立,当呈现统计显著时,就需要列出这个交互影响项的效应,以助于作出正确的统计推断。
二、 单因素方差分析单因素方差分析(one factor ANOV A 或one-way ANOV A )或称为完全随机设计的方差分析(completely random design ANOV A )。
试验设计时按受试对象的抽取或分组的随机程度不同可细分为以下两类:● 完全随机设计——从符合条件的总体中完全随机地抽取所需数目的受试对象,再将全部受试对象完全随机地分配到k 组中去。
此时,受试对象与试验因素间无直接联系。
● 组内完全随机设计——按试验因素的k 个水平将全部受试对象划分成k 个子总体,再分别从k 个子总体中完全随机地抽取所需数目的受试对象。
此时,试验因素的各水平决定了受试对象各自应该归属的组别。
设因素A 有k 个水平k A A A ,,,21 ,在每一个水平下考察的指标可以看成一个总体,现有k 个水平,故有k 个总体,并假定:① 每一总体均服从正态分布; ② 每一总体的方差相同;③ 从每一总体中抽取的样本相互独立。
我们要比较各个总体的均值是否一致,就是要检验各总体的均值是否相同,设第i 个总体的均值为i μ,那么就是要检验如下原假设:k H μμμ=== 210:其备选假设为:k H μμμ,,,:211 不全相同。
设从第i 个总体获得容量为i n 的样本观察值为i in i i y y y ,,,21 ,k i ,,2,1 =,各样本间还是相互独立的。
样本观察值ij y 可看成是来自均值为i μ的总体,这样ij y 就是其均值i μ与随机误差ij ε迭加而产生的。
上面我们已经假定在i A 水平下的ij y 服从),(2σμi N 分布,则有),0(~2σεN ij 。
因此,我们有单因素方差分析的统计模型:⎪⎩⎪⎨⎧==+=),0(,,,2,1,,,2,1,2σεεμN n j k i y ij i ij i ij 且都服从相互独立各 (25.1)为了能更仔细地描述数据,常在方差分析模型中引人一般平均与效应的概念。
称各个i μ的加权平均i ki i n n μμ∑==11(25.2)为总平均,其中∑==ki inn 1。
称k i a i i ,,2,1,=-=μμ(25.3)为因素A 在第i 水平的主效应,也简称为i A 的效应,同时也表明第i 个总体的均值是一般平均与其效应的迭加。
容易看出效应间有如下关系式:01=∑=iki i an(25.4)此时,单因素方差分析的统计模型可改写成包含效应的形式:⎪⎪⎩⎪⎪⎨⎧===++=∑=),0(,0,,2,1,,,2,1,21σεεμN a n n j k i a y ij k i i i iij i i ij 且都服从相互独立各(25.5)所要检验的原假设也可改写成:0:210====k a a a H现在,我们知道造成各ij y 间差异的原因可能有两个:一个可能是假设0H 不真,即各水平下总体均值i μ(或水平效应i a )不同,因此从各总体中获得的样本观察值也就有差异了;另一可能是0H 为真,差异是由于随机误差引起的。
为了进一步定量分析这些差异,我们需要把这些差异表达出来。
由(25.1)可推导出:∙∙+=i i i y εμ(25.6)其中i n j iji n yy i/1∑=∙=,i n j ij i n i/1∑=∙=εε。
即组内样本观察值的平均值等于组内总体均值加上组内随机误差的平均值。
还可由(25.5)推导出:εμ+=y (25.7)其中n yy k i n j iji/11∑∑===,∑∑===k i n j ij i11εε。
即所有样本观察值的平均值等于总平均(各组均值的加权平均)加上所有随机误差的平均值。
这样,每一个观察值ij y 与总平均y 的偏差可以分解成两部分:)()(y y y y y y i i ij ij -+-=-∙∙(25.8)其中∙-i ij y y 称为组内偏差,由(25.1)和(25.6)代入得到:∙∙∙-=+-+=-i ij i i ij i i ij y y εεεμεμ)()((3.2.9)说明组内偏差仅仅反映了随机误差。
而y y i -∙称为组间偏差,由(25.6)、(25.7)和(25.3)代入得到:εεεμεμ-+=+-+=-∙∙∙i i i i i a y y )()((25.9)说明第i 组间偏差除了反映随机误差外还反映了第i 个水平的效应i a 。
各ij y 间总的差异大小可用总偏差平方和T S 表示:∑∑==-=k i n j ij T iy y S 112)((25.10)由(25.9)随机误差引起的数据间的差异可以用组内偏差平方和表示,也称误差偏差平方和e S :∑∑==∙-=k i n j i ij e iy y S 112)((25.11)由于组间偏差除了随机误差外,还反映了效应的差异,故由于效应不同引起的数据差异可以用组间偏差平方和表示,也称因素A 的偏差平方和A S :∑=∙-=ki i i A y y n S 12)((25.12)将表示总差异的平方和进行分解:Ae i ki i ki n j i ij i k i n j i ij ki n j i ki n j i ij k i n j i i ij k i n j ij T S S y y n y y y y y y y y y y y y y y y y S iii iii +=-+-=--+-+-=-+-=-=∙===∙∙==∙==∙==∙==∙∙==∑∑∑∑∑∑∑∑∑∑∑∑∑2111211112112112112)()()()(2)()()()( (25.13)其中0)(1=-∑=∙in j i ijy y。