第七章 方差分析 - 黑龙江农业职业技术学院
- 格式:doc
- 大小:1.74 MB
- 文档页数:26
试验模型属固定模型或随机模型的区别仅在于F 测验和统计推断上,而与自由度、平方和的分解无关。
二、 方差分析的期望均方线性可加模型将每一观察值看作是几个分量的总和。
最简单的情况是平均数μ加随机误差ε。
但平均数μ又可以是另一些分量的总和,对于完全随机设计,各处理观察值数目相等资料而言,即有ij i ij x ετμ++= (k i ,,2,1 =;n j ,,2,1 =)对于ij ε部分的假定已于上节说明,即它是彼此独立的,以零为平均数的正态分布,且不同处理内具有同质的方差。
本节要说明的是关于i τ部分的假定。
固定模型(模型Ⅰ)和随机模型(模型Ⅱ)是由于对效应τ有不同的解释而产生的。
从理论上讲,固定模型是指各个处理的平均效应)(μμτ-=i i 是固定的一个常量,且满足0=∑i τ (或0=i i n τ∑)。
随机模型是指各个处理效应i τ不是一个常量,而是从平均数为零、方差为2τσ的正态总体中得到的一个随机样本的结果。
在实际工作中,我们可以这样理解这两种模型的区别。
例如在田间试验中,若我们的目的仅在于了解某几个特定处理的效应,如要了解水稻新品种的产量或几种密度、几种肥料、几种农药的效应等,则处理效应i τ为固定的处理效应。
换言之,固定模型仅在于了解供试处理范围内处理间的不同效应,其结论是不能推广应用于范围以外的其他处理的。
如果我们的目的不是研究选出供试的那几个处理的效应,而是要对这些处理所属的总体作出推断,例如,为研究东北地区大豆地方品种的生态类型和特性,我们从大量地方品种中随机抽取一部分品种作为代表进行试验,以便通过这部分供试品种的试验结果推论整个东北地区大豆地方品种的情况,这种处理效应便是随机模型的处理效应。
在随机模型中,因为各处理仅是所属总体的随机样本,故总体方差2τσ是重要的研究对象。
由上可知,固定模型和随机模型,在设计思想和统计推断上是明显不同的。
对于固定模型,如进行重复试验,则一定包括同样组别的τ在新试验里,我们的注意力是集中于研究这些τ(效应)的大小上。
第七章方差分析●了解方差分析的概念和作用;●掌握方差分析的基本原理和步骤;●掌握单向分组资料的方差分析;●掌握两向分组和系统分组资料的方差分析。
能力目标:●学会完全随机试验资料进行方差分析;●学会单向分组资料进行方差分析;●学会两向分组和系统分组资料进行方差分析。
对一个或两个样本进行平均数的假设测验,可以采用u测验或t测验来测定它们之间的差异显著性。
而当试验的样本数k≥3时,上述方法已不宜应用。
其原因是当k≥3时,就要进行k(k-1)/2次测验比较,不仅工作量大,而且精确度降低。
因此,对多个样本平均数的假设测验,需要采用一种更加适宜的统计方法,即方差分析法。
方差分析法是科学研究工作的一个十分重要的工具。
第一节方差分析基本原理方差分析(analysis of variance,ANOV A)就是将试验数据的总变异分解为来源于不同因素的相应变异,并作出数量估计,从而发现各个因素在总变异中所占的重要程度。
即将试验的总变异方差分解成各变因方差,并以其中误差方差作为和其他变因方差比较的标准,以推断其他变因所引起变异量是否真实的一种统计分析方法。
一、自由度与平方和分解方差是平方和除以自由度的商。
要将一个试验资料的总变异分解为各个变异来源的相应变异,首先将总平方和与总自由度分解为各个变异来源的相应部分。
因此,平方和与自由度的分解是方差分析的第一步骤。
下面以单因素完全随机试验设计的资料为例说起。
假设有k 个处理,每个处理有n 个观察值,则该试验资料共有nk 个观察值,其观察值的组成如表7-1。
表7-1中,i 代表资料中任一样本;j 代表样本中任一观测值;x ij 代表任一样本的任一观测值;T t 代表处理总和;t x 代表处理平均数;T 代表全部观测值总和;x 代表总平均数。
表7-1 每处理具n 个观测值的k 组数据的符号表处理观察值处理总和T t 处理平均t x 12 … j … n 1 x 11 x i 2 … x 1j … x 1n T t1 1t x 2 x 21 x i 2 … x 2j … x 2n T t2 2t x… … … … … … … … …i x i1 x i 2 … x ij … x in T ti ti x… … … … … … … … …kx k 1x k 2… x kj…x k nT tk tk xT =∑xx在表7-1中,总变异是nk 个观测值的变异,故其自由度v =nk -1,而其平方和SS T 则为: =T SS 221()nk ij x x x C -=-∑∑ (7-1)(7-1)式中的C 称为矫正数:22()x T C nknk==∑ (7-2) 产生总变异的原因可从两方面来分析:一是同一处理不同重复观测值的差异是由偶然因素影响造成的,即试验误差,又称组内变异;二是不同处理之间平均数的差异主要是由处理的不同效应所造成,称处理间变异,又称组间变异。
因此,总变异可分解为组间变异和组内变异两部分。
组间的差异即k 个x 的变异,故自由度1v k =-,而其平方和SS t 为: 221()ktt ijT SS nxx C n=-=-∑∑ (7-3)组内的变异为各组内观测值与组平均数的变异,故每组具有自由度v =1n -和平方和21()nijxx -∑,而资料共有k 组,故组内自由度,v =(1)k n -,而组内平方和SS e 为:211()k ne ijt T t SS xx SS SS =-=-∑∑ (7-4)因此,得到表7-1类型资料平方和与自由度的分解式为: 总平方和=组间(处理间)平方和+组内(误差)平方和22211111()()()k nk k nijt ij t i xx n x x x x =-=-+-∑∑∑∑∑(7-5)记作: e t T SS SS SS +=总自由度=组间(处理间)自由度+组内(误差)自由度即: )1()1(1-+-=-n k k nk (7-6) 记作: DF T =DF t +DF e 将以上公式归纳如下:总平方和 C x SS T -∑=2 总自由度 1-=kn DF T处理平方和 C nT SS t t -∑=2处理自由度 1-=k DF t 误差平方和 t T e SS SS SS -= 误差自由度 )1(-=n k DF e 求得各变异来源的平方和与自由度后,进而求得:总的方差TTTDF SS s 22=处理间方差 tt tDF SS s 22=误差方差 ee eDF SS s 22=[例7.1] 设有A 、B 、C 、D 、E5个大豆品种(k =5),其中E 为对照,进行大区比较试验,成熟后分别在5块地测产,每块地随机抽取4个样点(n =4),每点产量(kg )列于表7-2,试作方差分析。
表7-2 大豆品比试验结果(kg/小区)品 种取 样 点T t t x12 3 4 A 23 21 24 21 89 22.25 B 21 19 18 18 76 19.00 C 22 23 22 20 87 21.75 D 19 20 19 18 76 19.00 E1516161764 16.00392x=19.61.平方和的分解(7-7)(7-8)已知54==k n ,,根据公式(7-2)和(7-7)可得=C kn T 2=203922683.2 7= =T SS C x -∑28.122202123222=+++==-∑=C nT SS t t 23.1014877664768922222=-++++C 5.211.1038.122=-=-=t T e SS SS SS2.自由度的分解根据公式(7-6)可得:总变异自由度()19154=-⨯=T DF 品种间自由度415=-=t DF 误差自由度15)14(5=-⨯=e DF3.计算各部分方差根据公式(7-7)可得: 32.2553.1012==t s 43.1155.212==e s 总方差可以不计算。
二、F 分布与F 测验1.F 分布设想在一正态总体N (μ,σ2)中随机抽取样本容量为n 的样本k 个,将各样本观测值整理成表7-1的形式。
此时的各处理没有真实差异,各处理只是随机分的组。
因此,由(7-8)式算出的2t s 和2e s 都是误差方差2σ的估计量。
以2e s 为分母,2t s 为分子,求其比值。
统计学上把两个方差之比值称为F 值。
即 22/e t S S F = F 具有两个自由度:)1(,121-==-==n k df k df e t νν。
F 值所具有的概率分布称为F 分布。
F 分布密度曲线是随自由度DF 1、DF 2的变化而变化的一组偏态曲线,其形态随着DF 1、DF 2的增大逐渐趋于对称,如图7-1所示。
F 分布的取值范围是(0,+∞),其平均值F μ=1。
用)(F f 表示F 分布的概率密度函数,则其分布函数 F F ()为:()F F α=P (F <αF )=()F f F dF α⎰因而F 分布右尾从αF 到+∞的概率为:P (F ≥αF )1()()F F F f F dF αα+∞=-=⎰附表4,F 值表列出的是不同v 1和v 2下,P (F ≥αF )=0.05和P (F ≥αF )=0.01时的F 值,即右尾概率α=0.05和α=0.01时的临界F 值,一般记作F 0.05,F 0.01。
如查F 值表,当v 1=3,v 2=18时,F 0.05=3.16,F 0.01=5.09,表示如以v 1=DF t =3,v 2=DF e =18在同一正态总体中连续抽样,则所得F 值大于3.16的仅为5%,而大于5.09的仅为1%。
2.F 测验F 值表是专门为检验2t s 代表的总体方差是否比2e s 代表的总体方差大而设计的。
若实际计算的F 值大于0.05F ,则F 值在α=0.05的水平上显著,我们以95%的可靠性(即冒5%的风险)推断2t s 代表的总体方差大于2e s 代表的总体方差。
这种用F 值出现概率的大小推断两个总体方差是否相等的方法称为F 测验。
在方差分析中所进行的F 测验目的在于推断处理间的差异是否存在,检验某项变异因素的效应方差是否为零。
因此,在计算F 值时总是以被测验因素的方差作分子,以误差方差作分母。
应当注意,分母项的正确选择是由方差分析的模型和各项变异原因的期望均方决定的。
实际进行F 测验时,是将由试验资料所算得的F 值与根据v 2=DF t (大均方,即分子均方的自由度)、v 2=DF e (小均方,即分母均方的自由度)查附表F 值表所得的临界F 值与F 0.05、F 0.01相比较作出统计推断的。
若F <F 0.05,即P >0.05,不能否定0H ,统计学上把这一测验结果表述为:各处理间差F (1ν=2,2ν=5)(1ν=8,2ν=20)(1ν=4,2ν=10)f (F )异不显著,不标记符号;若F 0.05≤F <F 0.01,即0.01<P ≤0.05,否定0H ,接受A H ,统计学上,把这一测验结果表述为:各处理间差异显著,在F 值的右上方标记“*”;若F ≥F 0.01,即P ≤0.01,否定H 0,接受H A ,统计学上,把这一测验结果表述为:各处理间差异极显著,在F 值的右上方标记“**”。
对于[例7.1],因为F =22e t s s =25.32/1.43=17.71;根据1ν=DF t =4,2ν=DF e =15查附表F值表,得F >F 0.01 =4.89,P <0.01,表明5个不同大豆品种对产量的影响达到极显著差异。
在方差分析中,通常将变异来源、平方和、自由度、均方和F 值归纳成一张方差分析表,见表7-3。
表7-3 表7-2资料方差分析表变异来源 SS DF s 2 F F 0.05 F 0.01 品种间 101.3 4 25.32 17.71** 3.04 4.89 品种内 21.5 15 1.43 总变异122.819因为经F 测验差异极显著,故在F 值17.71右上方标记“**”。
在实际进行方差分析时,只须计算出各项平方和与自由度,各项均方的计算及F 检验可在方差分析表上进行。
三、多重比较经F 测验,差异达到显著或极显著,表明试验的总变异主要来源于处理间的变异,试验中各处理平均数间存在显著或极显著差异,但并不意味着每两个处理平均数间的差异都显著或极显著,也不能具体说明哪些处理平均数间有显著或极显著差异,哪些差异不显著。
因而,有必要进行两两处理平均数间的比较,以具体判断两两处理平均数间的差异显著性。
统计上把多个平均数两两间的相互比较称为多重比较(multiple comparison )。
多重比较的方法比较多,常用的有最小显著差数法(LSD 法)和最小显著极差法(LSR 法),现分别介绍如下。