第一节方差分析原理.doc
- 格式:doc
- 大小:838.01 KB
- 文档页数:18
第六章 方差分析第一节 方差分析的基本原理上章介绍了1个或两个样本平均数的假设测验方法。
本章将介绍k (k ≥3)个样本平均数的假设测验方法,即方差分析(analysis of variance)。
方差分析就是将总变异剖分为各个变异来源的相应部分,从而发现各变异原因在总变异中相对重要程度的一种统计分析方法。
其中,扣除了各种试验原因所引起的变异后的剩余变异提供了试验误差的无偏估计,作为假设测验的依据。
因而,方差分析象上章的t 测验一样也是通过将试验处理的表面效应与其误差的比较来进行统计推断的,只不过这里采用均方来度量试验处理产生的变异和误差引起的变异而已。
方差分析是科学的试验设计和分析中的一个十分重要的工具。
本章将在介绍方差分析基本原理和方法的基础上进一步介绍数学模型和基本假定。
一、自由度和平方和的分解方差是平方和除以自由度的商。
要将一个试验资料的总变异分解为各个变异来源的相应变异,首先必须将总自由度和总平方和分解为各个变异来源的相应部分。
因此,自由度和平方和的分解是方差分析的第一步。
下面先从简单的类型说起。
设有k 组数据,每组皆具n 个观察值,则该资料共有nk 个观察值,其数据分组如表。
表 每组具n 个观察值的k 组数据的符号表组别 观察值(ij y ,i =1,2,…,k ;j =1,2,…,n )总和平均均方 1 11y 12y … j y 1… n y 1 1T 1y 21s221y22y… j y 2… n y 22T2y22s……i1i y2i y…ij y…in yi Ti y2i s……k1k y 2k y … kj y … kn y k T k y2s∑∑==y y T ijy在表中,总变异是nk 个观察值的变异,故其自由度1-=nk ν,而其平方和T SS 则为:∑-∑=-=nknkijij T C y y y SS 1122)( (6·1) (6·1)中的C 称为矫正数:nkT nk y C 22=∑=)( (6·2) 这里,可通过总变异的恒等变换来阐明总变异的构成。
第九章 方差分析第一节 方差分析的基本原理及步骤一、方差分析的基本原理假设从一个实验中抽取了9名被试的学习成绩,如表9-1所示。
随后又抽取了9名被试的学习成绩,如表9-2所示。
你能从这些数据发现什么问题吗?首先,从数据可知,不仅组与组之间存在不同,而且同一组内部也存在着不同。
前者称组间变异,后者称组内变异。
其次,从组间变异看,表9-1组间变异大于表9-2。
表9-1 第1次抽取结果表9-2 第2次抽取结果 方法 学生实验成绩 Xt X方法 学生实验成绩 Xt XA 6 5 7 6A 1 7 4 4B 11 9 10 10 7B 6 2 8 6 5C5465C3655再次,从看组内变异看,表9-1比 9-2差异小。
综上所述,表10-1组间变异较大而组内变异较小,表10-2组间变异较小而组内变异较大,组间变异大小与组内变异大小并非正比关系。
这表明,若组间变异与组内变异的比率越大,各组平均数的差异越大。
因此,通过组间变异和组内变异比率大小来推论几个相应平均数差异显著性的思想就是方差分析的逻辑依据或基本原理。
所以说,方差分析是将实验中的总变异分解为组间变异和组内变异,并通过组间变异和组内变异比率的比较来确定影响实验结果因素的数学方法,其实质是以方差来表示变异的程度。
总变异组间变异实验条件随机误差组内变异个体差异随机误差实验误差图10-1 总变异的分解图二、方差分析的基本过程(一)综合虚无假设与部分虚无假设方差分析主要处理多于两个的平均数之间的差异检验问题,需要检验的虚无假设就是“任何一对平均数”之间是否有显著性差异。
综合虚无假设:样本所归属的所有总体的平均数都相等 备择假设:至少有两个总体的平均数不相等(二)方差的可分解性总变异 = 组间变异 + 组内变异变异(V ariance ,用V 表示)即方差(S 2),又称均方差或均方(M ean S quare ,MS ),其公式为()df SS n X X MS V S =--=∑1),(22或或其中,分子为离均差平方和,简称平方和,记为SS ;分母为自由度,记为df ,所以总变异及各变异源记为w b t MS MS MS +=总变异的数学意义是每一原始分数(X )与总平均数(t X )的离差,记为()tX X -组间变异的数学意义是每一组的平均数(i X )与总平均数的离差,记为()t iX X-组内变异的数学意义是每一组内部的原始分数与其组平均数(i X )的离差,记为()iX X -(二)总变异的分解及各部分的计算 1.平方和的分解与计算 1)平方和的定义式根据变异的可加性,任何一个原始分数都有()()()i t itX X X XX X -+-=-对容量为n 的某一小组而言,则有()()()[]∑∑-+-=-i t it X X X XX X为了使平方和不为0,须做代数的处理,即有()()()[]22∑∑-+-=-i t itX X X XX X对k 组页言,则有()()()[]∑∑∑∑-+-=-22ititX X X X X X()()()()∑∑∑∑∑∑-+--+-=222iititiX X X X X X X X ∵ ()()0=--∑∑i t iX X X X∴ ()∑∑-2tX X ()()∑∑∑∑-+-=22itiX X X X即 总平方和 = 组间平方和 + 组内平方和 或 w b t SS SS SS += 2)平方和的计算式()()nX XX X 222∑∑∑-=-总平方和:()()∑∑∑∑∑∑∑-=-=nX X X X SS t t 222组间平方和:()()()∑∑∑∑∑∑∑-=-=n X n X X X SS tib222组内平方和:()∑∑-=2i wX X SS ()∑∑-=2i w X X SS b tSS SS-=例9-1:要探讨噪音对解决数学问题的影响。
第七章方差分析第一节方差分析的基本原理方差分析(Analysis of variance,简称ANOV A)是对多个总体均值是否相等这一假设进行检验的一种方法。
一、方差分析的内容1实例[例] 某饮料生产企业研制出一种新型饮料。
饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。
这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。
现从地理位置相似、经营规模相仿的五家超级市场上收集了前一期该种饮料的销售量情况,见表7—1。
新型饮料在五家超市的销售情况表解:从表7—1中看到20个数据各不相同,什么原因使其不同呢?2产生的原因①是销售地点的影响;②是饮料颜色的影响。
A 有可能是抽样的随机性造成的;B 有可能是由于人们对不同颜色有所偏爱。
可以将上述问题就归结为一个检验问题——检验饮料颜色对销售量是否有影响,即要检验各个水平的均值k μμμ,,21 是否相等。
二、方差分析的原理1基本概念因素:一个独立的变量就称为一个因素。
如,颜色水平:将因素中不同的现象称为水平。
(每一水平也称为一组) 单因素方差分析:方差分析只针对一个因素进行。
多因素方差分析:同时针对多个因素进行分析。
观察值之间的差异产生来自于两个方面:①是由因素中的不同水平造成系统性差异的; ②是由于抽选样本的随机性产生的差异。
方差分析数据结构表7-2在一元情形下假设:ik i2i1X ,,X ,X ,i=1,2…n j ,j=1,2,…k,为来自总体)N(2σ,μ的随机样本。
如果假设k H μμμ=== 210:也可表达为 j j αμμ+=其中j α是第j 个水平的偏差。
如果各水平下均值相等,则可以表述为: 0:210====k H ααα对于第j 个因素有ij j ij X εαμ++=其中()2,0~σεN ij 为独立同分布随机变量。
对于观察值则有)()(j ij j ij x x x x xx -+-+=将式两端减去x 然后平方,得))((2)()()(222j ij j j ij j ij x x x x x x x x x x --+-+-=-等式两边求和,有也即如上例可以建立如下的假设:43210:μμμμ===H ;43211,,,:μμμμH 不全相等。
第一节方差分析原理一、方差分析基本思想方差分析( analysis of variance ,或缩写 ANOVA )又称变异数分析,是一种应用非常广泛的统计方法。
其主要功能是检验两个或多个样本平均数的差异是否有统计学意义,用以推断它们的总体均值是否相同。
它是真正用来进行上述“多组比较”问题的正确方法,从这个意义上说,它可看成是t 检验等“两组比较法”的推广。
理解方差分析的原理,主要在于其基本思想,而不在于数学推导。
以单因素完全随机化实验设计为例(这是最简单的多组实验设计)介绍方差分析的原理。
注意下面列出的该种设计的数学模式,假设有 k 个处理,每个处理下有n 个被试,一共有nk 个被试。
K 个处理下的数据构成比较中的k 个组或 k 个样本。
理T 1 T 2 ⋯T j ⋯T k X 11 X 12 ⋯X 1j ⋯X 1kX 21 X 22 ⋯X 2j ⋯X 2k各⋯⋯⋯⋯⋯⋯数据X i1 X i2 ⋯X ij ⋯X ik⋯⋯⋯⋯⋯⋯X n1 X n2 ⋯X nj ⋯X nk不失一般地,其对应的图示如下:根据测量学中的真分数理论,观测值等于真值和误差之和;据此,对照上面的数据可得到下面的数学模型:其中:X ij 指第 j 个处理下的第 i 个被试的实验数据;μ 指总体均值;在图中样本数据中,即红色线表示的总平均;μ指第 j 个处理的均值;jτ称为第 j 个处理的效应;通常,τj=μj–μ,也即各组均值偏离总平均的离差;jεij 为随机误差( idd 表示误差独立同分布);在该模型中,误差就是各组中数据偏离其组均值的离差。
因为根据单因素完全随机化设计的特点,同组中的被试,其各方面条件都相同,接受的处理也相同,其观测值间的差异只能归结为随机误差。
首先对检验的零假设进行变换:下面我们就需要构造一个统计量使得它在Ho"下无未知量且有精确的分布,以进行假设2检验。
由于τj是每个处理的平均数与总平均之差,所以我们考虑从数据的离均差的平方入手来构造统计量:对每个观测数据:即:任意一个数据与总平均数的离差= 该数与所在组平均数的离差+ 所在组的平均数与总平均数的离差。
我们针对第j 组中每个数据的上述分解式的平方求和得:再对所有组求和得:显然,上式左端的表达式就是将所有k 个样本数据混在一起时所得总方差的分子部分,称总平方和,记为 SSt(sum of square, total);右端第一式是在各组内计算得到的各组方差的分子部分,由于它度量的实际上是所有数据与其所在组均值的离差平方和,故称之为组内平方和,记为 SSw(within group) ,根据上述的模型,它的含义也就是误差平方和;右端第二式度量的是各组的效应平方和,称组间平方和(之所以有 n 倍,是因为每组中的效应被重复累加了 n 次),记为 SSb(between group)。
上式简记为: SSt = SSb + SSw。
此公式是和上述单因素完全随机化设计的数学模型相对应的。
接下来的问题实际上是利用 F 检验进行方差比检验,即比较组间变异(方差或均方)和组内变异的相对大小。
因此,分别将上述平方和比各自的自由度得到组间方差(记为 MSb )和组内方差(记为 MSw 或 MSe)。
方差分析假定各处理方差相等,则各处理样本的方差2 2 2 2(下S 1、S 2,,S m 都是处理总体方差σ 的无偏估计量。
各处理方差合成后估计精度更高2式)。
同时, MSb 也是σ的无偏估计量。
则有:直观地看,要检验的就是 F 值是否显著地大于 1,若大于 1,说明组间变异中尚存在随机误差之外的显著变异;否则说明组间变异和随机误差差不多,也即接受无差异零假设。
从上面的推导过程看到,方差分析实际上是将实验数据的总变异分解成若干个不同来源的分量(对于单因素完全随机化实验设计来说是分解成组间差异所引起的变异和组内误差所引起的变异),即将总的离均差平方和分解成几个不同来源的平方和,然后比较我们研究的那些因素所引起的变异与误差变异的显著性。
其核心一是根据具体实验设计确定变异源分解模型;二是构造方差比进行 F 检验。
二、方差分析的基本条件进行方差分析时有一定的条件限制,数据必须满足以下几个基本假定:总体正态性。
要求样本必须来自正态分布总体,而总体是否服从正态分布可以采用卡方检验中的拟合性检验进行判断(参见第八章有关内容)。
不过在心理与教育研究领域中,大多数变量是可以假定其总体服从正态分布的,因此一般在进行方差分析时并不需要去检验总体分布的正态性;而且研究表明数据正态性对于方差分析结果的影响不是太大。
方差齐性。
在前面的推导过程中,将MSw作为总体组内方差的估计值,而计算MSw 时相当于将各处理(组)方差合成,这种合成正如T 检验一节所讲一样,显然要求一个前提就是各组的方差无显著的差异。
方差齐性检验有许多方法,如教材介绍的哈特莱(Hartley) 法、 Levene 氏方差齐性检验等。
第二节两类单因数方差分析作为方差分析的基础,首先要了解实验设计的有关知识。
方差分析法的复杂之处在于不同的实验设计,其方差分析过程可能是不同的。
如上所述,不同的实验设计,方差分析过程的首要区别是因变量总变异的分解方式不同,所关心的效应种类不同;而在构造方差比计算 F 值时总是以被检验因素或效应的均方(如上面的组间均方)作分子,以误差均方作分母(单侧检验)。
所有形式的方差分析都是如此。
有几个可能的效应,就应当进行几次 F 检验,每次检验的 F 统计量中的误差均方可能不尽相同。
一、实验设计基本概念1、自变量、因变量、无关变量、随机误差自变量 (independent variable) 是研究者可以系统地改变或操纵的变量。
自变量可以是被试自身的条件,如年龄、智力,也可以是外在环境的刺激,如学习材料、光线的强度、教学方法、错觉实验中的夹角,还可以是用来预测其它行为的行为——高中的学业成绩来预测大学的成绩。
在方差分析中也称自变量为因素或因子 (factor) ,通常方差分析只能处理名义型的质量因子,如性别、教学方法等;若自变量为等距或等比类型的数量因子,如光线的强度、夹角等,通常可以在具体实验中将其人为地只取几个代表值,转化成质量因子。
而对于完全连续型的数量因子则必须借助于协方差分析( analysis of covariance , ANCOVA )。
因变量 (dependent variable)是实验中加以精确测量以便决定自变量效应的变量,即由自变量引起的实验体的变化。
比如成绩、遗忘量、错觉量,反应时等。
无关变量(irrelevant variable) 是自变量以外的其它可能引起因变量变化的变量。
随机误差 (random error) 在这里定义成测量或实验所得的分数与真分数之间的差异。
如以同一智力测验对同一个体测量数次或对同一个体施以不同智力测验,所测结果不尽相同,在理论上该个体的真智力只有一个分数,而测得的却有数个分数,测得分数与真分数之间的差异,即为随机误差。
上述四个概念之间的关系可以表示为:因变量=F(自变量,无关变量)+随机误差。
这可看成是真分数理论的推广。
2、因素的水平和实验处理因素的水平 (level) 指每一个特定取值,在实验中也就是各实验组。
注意:因素的水平与一个实验中因素的个数之间的区别。
不能把夹角的三个水平当成实验中的三个因素。
实验处理 (treatment)指实验中一个特定的、独特的实验条件,它一般是各个因素的所有水平的交叉组合。
一个处理就代表一个总体,每个处理下收集的数据就是该总体的一个样本。
下例是研究夹角与错觉量之间关系的实验,实验中考虑三个因素:夹角,性别 ,光线的强弱,一共有 3×2×2=12 个处理。
夹角男女强弱强弱30o 1 2 3 445o 5 6 7 860o 9 10 11 12 在实验中若只有一个因素,则水平也就是处理。
3、实验设计的分类可以简单地以自变量的多少分:单因素、二因素和多因素;也可以按照实验控制无关变量的多少分:①完全随机化实验设计通过随机分配被试给各个实验处理(每个处理下的被试数最好相等,至少有期实现各个处理下的被试在统计上无差异,它不能分解出无关变量对因变量的影响,理论上使所有无关变量对各处理的影响相等。
2 名),以只是在完全随机化实验设计中的“完全”指的是将被试分配给所有处理,“随机”指的是将所有被试随机分配。
②随机化完全区组设计将被试按某一无关变量的不同水平分成若干个组,这种组就叫做区组,区组是相对于实验组而言的,各组内各被试在该无关变量上的大小相同。
如要班主任不同对学生数学成绩的影响实验中,被试以前的数学成绩是一个无关变量,它会影响到实验的最终结果,因此我们可以把学生以前的数学成绩作为标准对学生进行分组。
假如以前的数学成绩用四级评分来表示,则可以将被试分成四个组 (最好各个组内的人数相等),然后再将每个组的被试按完全随机化实验设计那样随机地分配给各个处理。
随机化完全区组设计中的“随机”指的每个区组内的被试随机地分配各个处理,指的是在每一个区组中的被试要分配给所有的处理,若没能分配给所有的处理,全区组设计。
随机化完全区组设计通常要求无关变量与实验中的因素无交互作用、实际上一般的区组设计方差分析也无法分解出其与因素的交互作用。
“完全”则称为不完互不影响。
③拉丁方设计区组设计的推广,可以控制两个无关变量的的实验设计,被试在分给实验处理前要按照两个无关变量重新分组。
此外还可按照被试接受处理的多少来分:①被试间实验设计(between subject design)指每个被试只接受一个处理,即只在一个实验条件下做实验。
前面所举的的例子都是被试间设计。
注意,完全随机化设计必然是被试间设计,而教材上所举的区组设计的例子多半为被试内设计的特殊情况,实际上,区组设计就其本质特点而言不是被试内设计,而是强调在完全随机化设计基础上,按照另一个无关变量对原先的被试重新进行排序分组。
在原先的处理组中,所有被试是不加区分的,现在则要按无关变量分组。
因此它并不能像被试内设计一样节省被试。
②被试内实验设计(within subject design)是一种控制误差非常严格的实验设计,指每个被试接受所有的处理,即相当于以单个被试为区组,可以排除许多与个体差异有关的无关变量的影响,这样实验组之间的差异除了被试在接受各处理时产生的随机波动外,就只能归因于处理的不同了。
被试内设计中也存在随机化,即对每个被试接受处理的顺序进行随机化。
这种实验设计可最大限度地控制个体差异的影响,这是其相对于被试间设计的优点。
但这种设计要求处理对被试没有长期影响,如学习和疲劳效应。
被试内设计还有一个好处就是能最大限度节省被试(处理下重复或数据个数相同的情况下)。