方差分析
- 格式:docx
- 大小:301.86 KB
- 文档页数:13
方差分析方差分析是比较多个总体的均值是否相等,但本质上它所研究的是变量之间的关系。
在研究一个(或多个)分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中的只要方法之一。
一、方差分析引论假设需要检验4个总体的均值分别为4321,,,μμμμ,如果用一般假设检验方法,如t 检验,一次只能研究两个样本,要检验4个总体的均值是否相等,需要做6次检验,如果在0.05的置信水平下检验,每次检验犯第Ⅰ类错误的概率都是0.05,检验完成时,犯第Ⅰ类错误的概率会大于0.05,即连续作6次检验第Ⅰ类错误的概率为6)1(1α--=0.265,而置信水平则会降低到0.735(即695.0)。
随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加(并非均值真的存在差别)。
而方差分析方法则是同时考虑所有的样本,因此排除了错误累计的概率,从而避免拒绝一个真实的原假设。
1、方差分析及其有关术语方差分析:就是通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
例1:为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。
其中零售业7家,旅游业抽取6家,航空公司抽取5家,家电制造业抽取5家。
最后统计出最近一年中消费者对总共23家企业投诉的次数。
如下表所示。
消费者对四个行业的投诉次数行业零售业 旅游业 航空业 家电制造业57 68 31 44 66 39 49 51 49 29 21 65 40 45 34 77 34 56 40 58 53 51 44要分析四个行业之间的服务质量是否有显著差异,实际上就是要判断“行业”对“投诉次数”是否有显著影响,做出这种判断最终被归结为检验这四个行业被投诉次数的均值是否相等。
在方差分析中,要检验的对象称为因素或因子。
因素不同的表现称为水平或处理。
每个因子水平下得到的样本数据称为观测值。
在例1中,“行业”是要检验的对象,称为“因素”或“因子”;零售业,旅游业,航空公司,家电制造业是行业这一因素的具体表现,称为“水平”或“处理”;在每个行业下得到的样本数据(被投诉次数)称为观测值。
第九章方差分析前面介绍了两个样本均数比较的t检验,那么多个样本均数的比较应该采用什么方法?方差分析(analysis of variance, ANOV A)是20世纪20年代发展起来的一种统计方法,由英国著名统计学家R.A.Fisher提出,又称F检验,是通过对数据变异的分析来推断两个或多个样本均数所代表总体均数是否有差别的一种统计学方法。
本章首先介绍方差分析的基本思想和应用条件,然后结合研究设计类型分别介绍各类方差分析方法。
第一节方差分析的基本思想和应用条件一、方差分析的基本思想方差分析的基本思想是把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。
例9.1 为研究大豆对缺铁性贫血的恢复作用,某研究者进行了如下实验:选取已做成贫血模型的大鼠36只,随机等分为3组,每组12只,分别用三种不同的饲料喂养:不含大豆的普通饲料、含10%大豆饲料和含15%大豆饲料。
喂养一周后,测定大鼠红细胞数(×1012/L),试分析喂养三种不同饲料的大鼠贫血恢复情况是否不同?表9.1 喂养三种不同饲料的大鼠红细胞数(×1012/L)普通饲料10%大豆饲料15%大豆饲料合计X 4.78 4.65 6.80 4.65 6.92 5.913.984.447.284.04 6.167.51 3.445.997.51 3.776.677.743.65 5.298.194.91 4.707.154.795.058.185.316.01 5.534.055.677.795.16 4.688.03in12 12 12 36 (n)i X ∑ 52.53 66.23 87.62 206.38(X ∑)i X4.385.52 7.30 5.73 (X ) 2i X ∑ 234.2783373.2851647.73121255.2946(2X ∑)表9.1按完全随机设计获得的36个数据(X )中包含以下三种变异: 1. 总变异 36只大鼠喂养一周后测定红细胞数X 各不相同,即X 与总均数X 不同,这种变异称为总变异(total variation)。
方差分析(ANOVA)简介方差分析(Analysis of Variance,简称ANOVA)是一种统计方法,用于比较两个或多个样本均值之间的差异是否显著。
它是通过分析样本之间的方差来判断均值是否存在显著差异的一种方法。
方差分析广泛应用于实验设计、社会科学、医学研究等领域。
单因素方差分析单因素方差分析是最简单的一种方差分析方法,适用于只有一个自变量(因素)的情况。
在单因素方差分析中,我们将样本数据按照因素的不同水平进行分类,然后比较各个水平之间的均值是否存在显著差异。
假设检验在进行单因素方差分析时,我们需要建立以下假设: - 零假设(H0):各个水平之间的均值没有显著差异。
- 备择假设(H1):各个水平之间的均值存在显著差异。
方差分解方差分析的核心思想是将总体方差分解为组内方差和组间方差。
组内方差反映了同一水平内个体之间的差异,而组间方差则反映了不同水平之间的差异。
通过比较组内方差和组间方差的大小,我们可以判断均值是否存在显著差异。
统计检验在单因素方差分析中,我们使用F检验来判断均值是否存在显著差异。
F检验是通过计算组间均方与组内均方的比值来进行的。
如果计算得到的F值大于临界值,则拒绝零假设,认为各个水平之间的均值存在显著差异。
多因素方差分析多因素方差分析是在单因素方差分析的基础上引入了多个自变量(因素)的一种方法。
它可以同时考虑多个因素对样本均值的影响,并判断这些因素是否存在交互作用。
交互作用交互作用是指两个或多个因素同时对样本均值产生影响时所产生的效应。
在多因素方差分析中,我们需要考虑各个因素之间是否存在交互作用,以更准确地判断均值之间的差异。
二元因子设计二元因子设计是多因素方差分析中常用的一种设计方法。
它将两个因素进行组合,得到不同水平的组合,然后比较各个组合之间的均值是否存在显著差异。
统计检验在多因素方差分析中,我们同样使用F检验来判断均值是否存在显著差异。
不同的是,多因素方差分析需要考虑组间方差的来源,包括主效应和交互效应。
什么是方差分析关键信息项:1、方差分析的定义2、方差分析的目的3、方差分析的应用场景4、方差分析的类型5、方差分析的步骤6、方差分析的结果解读7、方差分析的局限性8、方差分析与其他统计方法的比较11 方差分析的定义方差分析(Analysis of Variance,简称 ANOVA)是一种用于比较两个或多个总体均值是否存在显著差异的统计方法。
它通过分析数据的变异来源,来判断不同因素对观测变量的影响程度。
111 基本原理方差分析基于总体方差可以分解为各个因素所引起的方差之和的原理。
通过比较不同因素水平下的组间方差和组内方差,来确定因素对观测变量的影响是否显著。
112 数学模型一般来说,方差分析的数学模型可以表示为:观测值=总体均值+因素效应+随机误差。
12 方差分析的目的其主要目的是检验不同水平的因素对因变量的均值是否有显著影响。
121 探究因素的作用确定哪些因素对观测结果有重要影响,哪些因素的影响可以忽略不计。
122 比较不同处理的效果例如在实验研究中,比较不同实验处理条件下的结果是否存在显著差异。
13 方差分析的应用场景131 农业科学用于比较不同种植方法、施肥量、品种等对农作物产量的影响。
132 医学研究分析不同药物剂量、治疗方案对患者康复效果的差异。
133 工业生产研究不同生产工艺、原材料对产品质量的作用。
134 社会科学例如在心理学、教育学中,比较不同教学方法、教育环境对学生成绩或心理状态的影响。
14 方差分析的类型141 单因素方差分析只考虑一个因素对观测变量的影响。
142 双因素方差分析同时考虑两个因素的交互作用对观测变量的影响。
143 多因素方差分析涉及多个因素及其交互作用对观测变量的综合影响。
15 方差分析的步骤151 提出假设包括零假设(各总体均值相等)和备择假设(至少有两个总体均值不相等)。
152 计算统计量根据数据计算组间平方和、组内平方和等,进而得到 F 统计量。
153 确定显著性水平通常设定为 005 或 001 等。
方差分析一.方差分析的概念及意义方差分析,又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著检验。
由于各种因素的影响,研究所得的数据呈现波动状。
造成波动的原因可分成两类,一是不可控的随机因素,另一是研究种施加的对结果形成影响的可控因素。
方差分析的意义,工业生产中产品质量优劣,农业生产中产量高低,由诸多因素造成。
如农业生产中,肥料,浇灌,良种,管理等;化工生产中,原料成分,催化剂,剂量,反应温度,压力,溶液,机器设备与操作人员水平。
每种因素的改变,可影响产品质量与数量,那么在诸因素中找出对质量的某种指标有显著影响的因素,还要弄清这些显著因素在什么状态下(水平)起的作用大。
方差分析就是根据试验结果进行分析,鉴别各个因素对试验结果影响的有效方法。
二.方差分析的基本思想根据实验设计的类型及研究目的,将全部观察值之间所表现出来的总变异,分解为两个或多个部分。
除随机误差作用外,其余每个部分的变异均可由某个因素的作用加以解释。
通过比较不同变异来源的均方(MS),借助F分布做出统计推断,从而推断研究因素对试验结果有无影响三.方差分析的假定条件及假设检验3.1方差分析的假定条件为:(1)各处理条件下的样本是随机的。
(2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。
(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。
(4)各处理条件下的样本方差相同,即具有齐效性。
3.2方差分析的假设检验假设有K个样本,如果原假设H0样本均数都相同,K个样本有共同的方差σ,则K 个样本来自具有共同方差σ和相同均值的总体。
如果经过计算,组间均方远远大于组内均方,则推翻原假设,说明样本来自不同的正态总体,说明处理造成均值的差异有统计意义。
否则承认原假设,样本来自相同总体,处理间无差异。
四.方差分析中的常用术语4.1 因素(Factor)因素是指所要研究的变量,它可能对因变量产生影响。
如果方差分析只针对一个因素进行,称为单因素方差分析。
anova方差分析ANOVA(Analysis of Variance,方差分析)是一种统计分析方法,用于比较两个或两个以上样本的均值是否具有显著差异。
它通过计算总体方差以及各组内部的方差,来推断样本之间的差异是否随机发生。
一、方差分析的基本原理方差分析的基本原理是通过对总体方差进行分解,将样本之间的差异归结为因子差异和误差差异两个部分。
当因子差异显著大于误差差异时,我们可以得出结论:样本之间存在显著差异,即各组均值不全相等。
在方差分析中,我们通常将因子称为自变量,将被观察的变量称为因变量。
自变量可以是分类变量(如不同的药物治疗方法)或连续变量(如不同的剂量水平)。
因变量可以是定量变量(如收缩压)或定性变量(如治疗成功与否)。
二、单因素方差分析单因素方差分析是最简单的一种方差分析形式,适用于只有一个自变量的情况。
假设我们有k个独立的样本,每个样本包含n个观测值。
我们的目标是判断不同样本之间的均值是否存在显著差异。
为了进行单因素方差分析,我们需要计算各组样本的均值和方差。
然后,我们通过计算组间差异(组间方差)和组内差异(组内方差)来评估总体方差。
在显著性检验中,我们会计算F值,通过与临界F值进行比较来判断差异是否显著。
三、多因素方差分析在实际应用中,我们往往需要考虑多个自变量对因变量的影响。
这时,我们就需要使用多因素方差分析。
多因素方差分析可以同时考虑多个自变量之间的交互作用,得出更准确的结论。
多因素方差分析的计算方法与单因素方差分析类似,只是要考虑到不同自变量之间的交互作用。
我们需要计算各组样本的均值和方差,并通过计算组间差异和组内差异来评估总体方差。
最后,我们计算F值并与临界F值进行比较,判断差异是否显著。
四、方差分析的应用领域方差分析在各个领域都有广泛的应用。
在医学研究中,方差分析用于比较不同药物或治疗方法的疗效;在社会科学中,方差分析用于比较不同人群之间的行为差异;在工程领域中,方差分析用于比较不同工艺参数对产品质量的影响等等。
方差分析(ANOVA)简介方差分析(Analysis of Variance,简称ANOVA)是统计学中用来比较三个或三个以上总体均值是否相等的一种方法。
它以F检验为基础,通过比较组间差异与组内差异的大小,来确定总体均值是否存在差异。
ANOVA广泛应用于实验设计和数据分析领域,为研究人员提供了一种有效的比较多个总体均值的工具。
方差分析的基本原理方差分析的基本原理是通过比较不同来源的变异来确定总体均值是否相等。
它将总体的变异分解为组间变异和组内变异,然后通过F 检验来判断组间变异是否显著大于组内变异。
如果组间变异显著大于组内变异,就可以得出结论,总体均值存在显著差异。
单因素方差分析单因素方差分析是指在一个自变量(因素)下进行的方差分析。
例如,研究不同药物对某种疾病的疗效,药物的种类即为自变量,而观测结果(比如患者的症状改善程度)即为因变量。
通过单因素方差分析,可以确定不同药物对症状改善程度是否存在显著影响。
双因素方差分析双因素方差分析是指在两个自变量(因素)下进行的方差分析。
例如,研究不同药物在不同剂量下对某种疾病的疗效,药物的种类和剂量即为自变量,观测结果为因变量。
通过双因素方差分析,可以确定药物种类和剂量对症状改善程度的影响是否存在交互作用。
方差分析的假设条件进行方差分析时,需要满足一些基本的假设条件,包括观测值的正态性、各组方差的齐性和独立性等。
如果这些假设条件不满足,可能会影响到方差分析结果的准确性。
方差分析的应用领域方差分析广泛应用于医学、经济学、生态学等多个领域。
在医学领域,方差分析常用于评价不同药物治疗效果的显著性;在经济学领域,方差分析常用于进行市场调查和产品定价;在生态学领域,方差分析常用于研究环境因素对生物群落的影响。
总结方差分析作为一种常用的统计方法,能够有效比较多个总体均值的差异性,适用于单因素和双因素的不同研究设计。
它的应用领域广泛,为研究人员提供了一种有效的数据分析工具。
第九章 方差分析第一节 方差分析的基本原理及步骤一、方差分析的基本原理假设从一个实验中抽取了9名被试的学习成绩,如表9-1所示。
随后又抽取了9名被试的学习成绩,如表9-2所示。
你能从这些数据发现什么问题吗?首先,从数据可知,不仅组与组之间存在不同,而且同一组内部也存在着不同。
前者称组间变异,后者称组内变异。
其次,从组间变异看,表9-1组间变异大于表9-2。
表9-1 第1次抽取结果表9-2 第2次抽取结果 方法 学生实验成绩 Xt X方法 学生实验成绩 Xt XA 6 5 7 6A 1 7 4 4B 11 9 10 10 7B 6 2 8 6 5C5465C3655再次,从看组内变异看,表9-1比 9-2差异小。
综上所述,表10-1组间变异较大而组内变异较小,表10-2组间变异较小而组内变异较大,组间变异大小与组内变异大小并非正比关系。
这表明,若组间变异与组内变异的比率越大,各组平均数的差异越大。
因此,通过组间变异和组内变异比率大小来推论几个相应平均数差异显著性的思想就是方差分析的逻辑依据或基本原理。
所以说,方差分析是将实验中的总变异分解为组间变异和组内变异,并通过组间变异和组内变异比率的比较来确定影响实验结果因素的数学方法,其实质是以方差来表示变异的程度。
总变异组间变异实验条件随机误差组内变异个体差异随机误差实验误差图10-1 总变异的分解图二、方差分析的基本过程(一)综合虚无假设与部分虚无假设方差分析主要处理多于两个的平均数之间的差异检验问题,需要检验的虚无假设就是“任何一对平均数”之间是否有显著性差异。
综合虚无假设:样本所归属的所有总体的平均数都相等 备择假设:至少有两个总体的平均数不相等(二)方差的可分解性总变异 = 组间变异 + 组内变异变异(V ariance ,用V 表示)即方差(S 2),又称均方差或均方(M ean S quare ,MS ),其公式为()df SS n X X MS V S =--=∑1),(22或或其中,分子为离均差平方和,简称平方和,记为SS ;分母为自由度,记为df ,所以总变异及各变异源记为w b t MS MS MS +=总变异的数学意义是每一原始分数(X )与总平均数(t X )的离差,记为()tX X -组间变异的数学意义是每一组的平均数(i X )与总平均数的离差,记为()t iX X-组内变异的数学意义是每一组内部的原始分数与其组平均数(i X )的离差,记为()iX X -(二)总变异的分解及各部分的计算 1.平方和的分解与计算 1)平方和的定义式根据变异的可加性,任何一个原始分数都有()()()i t itX X X XX X -+-=-对容量为n 的某一小组而言,则有()()()[]∑∑-+-=-i t it X X X XX X为了使平方和不为0,须做代数的处理,即有()()()[]22∑∑-+-=-i t itX X X XX X对k 组页言,则有()()()[]∑∑∑∑-+-=-22ititX X X X X X()()()()∑∑∑∑∑∑-+--+-=222iititiX X X X X X X X ∵ ()()0=--∑∑i t iX X X X∴ ()∑∑-2tX X ()()∑∑∑∑-+-=22itiX X X X即 总平方和 = 组间平方和 + 组内平方和 或 w b t SS SS SS += 2)平方和的计算式()()nX XX X 222∑∑∑-=-总平方和:()()∑∑∑∑∑∑∑-=-=nX X X X SS t t 222组间平方和:()()()∑∑∑∑∑∑∑-=-=n X n X X X SS tib222组内平方和:()∑∑-=2i wX X SS ()∑∑-=2i w X X SS b tSS SS-=例9-1:要探讨噪音对解决数学问题的影响。
anova方差分析ANOVA(方差分析)ANOVA(analysis of variance),即方差分析,是一种统计方法,用于比较三个或三个以上样本均值是否存在显著差异。
ANOVA分析可以帮助研究人员确定是否存在群组间差异,进而推断原因并做出相应的决策。
本文将介绍ANOVA的基本概念、原理和具体应用。
一、ANOVA的基本概念1. 方差方差是指一组数据离其均值的平均偏差平方之和除以观测次数的结果。
方差分析就是通过比较组间方差和组内方差的大小来判断样本均值是否存在显著差异。
如果组间方差显著大于组内方差,说明样本均值之间存在显著差异。
2. 方差分析的假设方差分析中有以下两个基本假设:- 原假设(H0):样本的总体均值相等,即各组样本均值没有差异。
- 备择假设(H1):样本的总体均值不全相等,至少有一组样本均值存在差异。
3. 方差分析的类型方差分析一般分为单因素方差分析和双因素方差分析:- 单因素方差分析(One-Way ANOVA):用于比较一个自变量对一个因变量的影响。
- 双因素方差分析(Two-Way ANOVA):用于比较两个自变量对一个因变量的影响,并考虑两个自变量之间的交互效应。
二、ANOVA的原理1. 总平方和(SST)总平方和是各个观测值与总体均值之差的平方和。
计算SST的目的是用来衡量数据的总体变异程度。
2. 组间平方和(SSB)组间平方和是各组均值与总体均值之差的平方和,它反映了不同组别之间的差异。
计算SSB的目的是用来衡量组间均值的变异程度。
3. 组内平方和(SSW)组内平方和是各个观测值与其所在组别均值之差的平方和,它反映了同一组别内的个体差异。
4. 方差比(MSB和MSW)方差比是组间平方和与组内平方和的比值,用以判断样本均值之间的差异是否显著。
5. F统计量F统计量是方差比的比例,计算公式为组间平方和除以组内平方和。
通过比较F统计量与临界值,可以判断均值之间是否存在显著差异。
方差分析专题单因素试验的方差分析(一)单因素试验在科学试验和生产实践中,影响一事物的因素往往是很多的。
例如,在化工生产中,有原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作人员的水平等因素。
每一因素的改变都有可能影响产品的数量和质量。
有些因素影响较大,有些较小。
为了使生产过程得以稳定,保证优质、高产,就有必要找出对产品质量有显着影响的那些因素。
为此,我们需进行试验。
方差分析就是根据试验的结果进行分析,鉴别各个有关因素对试验结果影响的有效方法。
在试验中,我们将要考察的指标称为试验指标。
影响试验指标的条件称为因素。
因素可分为两类,一类是人们可以控制的(可控因素);一类是人们不能控制的。
例如,反应温度、原料剂量、溶液浓度等是可以控制的,而测量误差、气象条件等一般是难以控制的。
以下我们所说的因素都是指可控因素。
因素所处的状态,称为该因素的水平(见下述各例)。
如果在一项试验中只有一个因素在改变称为单因素试验,如果多于一个因素在改变称为多因素试验。
例1设有三台机器,用来生产规格相同的铝合金薄板。
取样,测量薄板的厚度精确至千分之一厘米。
得结果如表9.1所示。
水平。
我们假定除机器这一因素外,材料的规格、操作人员的水平等其它条件都相同。
这是单因素试验。
试验的目的是为了考察各台机器所生产的薄板的厚度有无显着的差异。
即考察机器这一因素对厚度有无显着的影响。
例2下面列出了随机选取的、用于计算器的四种类型的电路的响应时间(以毫秒计)。
4个水平。
这是一个单因素试验。
试验的目的是为了考察各种类型电路的响应时间有无显着差异。
即考察电路类型这一因素对响应时间有无显着的影响。
例3一火箭使用了四种燃料,三种推进器作射程试验。
每种燃料与每种推进器的组合各发射火箭两次,得结果如下(射程以海里计)。
4个水平。
这是一个双因素的试验。
试验的目的在于考察在各种因素的各个水平下射程有无显着的差异,即考察推进器和燃料这两个因素对射程是否有显着的差异。
本节限于讨论单因素试验,我们就例1来讨论。
在例1中,我们在因素的每一水平下进行了独立实验,其结果是一个随机变量。
表中数据可看成来自三个不同总体(每个水平对应一个总体)的样本值。
将各个总体的均值依次记为1μ,2μ,3μ。
按题意需要检验假设3210:μμμ==H 3211,,:μμμH 不全相等现在进而假设各总体均为正态变量,且各总体的方差相等,那么这是一个检验同方差的多个正态总体均值是否相等的问题。
下面所要讨论的方差分析法,就是解决这类问题的一种统计方法。
现在开始讨论单因素试验的方差分析。
设因素有s 个水平s A A A ,,,21 ,在水平j A (s j ,,2,1 =)下,进行j n (2≥j n )次独立实验,得到如下表的结果。
我们假定:各个水平j A (s j ,,2,1 =)下的样本12,,,j j j n j x x x 来自具有相同方差2σ,均值分别为j μ(s j ,,2,1 =)的正态总体),(2σμj N ,j μ与2σ未知。
且设不同水平j A 下的样本之间相互独立。
由于),(~2σμj ij N x ,即有),0(~2σμN x j ij -,故j ij x μ-可看成是随机误差。
记ij j ij x εμ=-,则ij x 可写成2,1,2,,;1,2,,,~(0,),,ij j ij j ij ij x i n j s N μεεσε=+==⎫⎪⎬⎪⎭各独立(1.1)其中j μ与2σ均为未知参数。
(1.1)式称为单因素试验方差分析的数学模型。
这是本节的研究对象。
方差分析的任务是对于模型(1.1),01检验s 个总体),(,),,(),,(22221σμσμσμs N N N 的均值是否相等,即检验假设s H μμμ=== 210:s H μμμ,,,:211 不全相等。
(1.2)02作出未知参数221,,,,σμμμs 的估计。
为了将问题(1.2)写成便于讨论的形式,我们将s μμμ,,,21 的加权平均值∑=sj j j n n 11μ记为μ,即∑==sj j j n n 11μμ(1.3)其中∑==sj j n n 1。
μ称为总平均。
再引入s j j j ,,2,1, =-=μμδ(1.4)此时有02211=+++s s n n n δδδ ,j δ表示水平j A 下的总体平均值与总平均的差异,习惯上将j δ称为水平j A 的效应。
利用这些记号,模型(1.1)可改写成 而假设(1.2)等价于假设0:210====s H δδδ s H δδδ,,,:211 不全为零。
)2.1('这是因为当且仅当s μμμ=== 21时μμ=j ,即0=j δ,(s j ,,2,1 =)。
(二)平方和的分解下面我们从平方和的分解着手,导出假设检验)2.1('的检验统计量。
引入总平方和∑∑==-=sj n i ij T jx x S 112)((1.5)其中∑∑===s i nj ij jx n x 111(1.6)是数据的总平均。
T S 能反映全部试验数据之间的差异,因此T S 又称为总变差。
又记水平j A 下的样本平均值为j x ⋅,即∑=⋅=jn i ijjj xn x 11 (1.7)我们将T S 写成注意到上式第三项(即交叉项) 于是我们就将T S 分解成为A E T S S S +=,(1.8) 其中∑∑==⋅-=sj n i j ij E jx x S 112)(,(1.9)21212112)()(x n x n x x n x x S sj jj sj j j sj n i j A j-=-=-=∑∑∑∑=⋅=⋅==⋅(1.10)上述E S 的各项2)(j ij x x ⋅-表示在水平j A 下,样本观察值与样本均值的差异,这是由随机误差所引起的。
E S 叫做误差平方和。
A S 的各项2)(x x j -⋅表示j A 水平下的样本平均值与数据总平均的差异,这是由水平j A 引起的。
A S 叫做因素A 的效应平方和。
(1.8)式就是我们所需要的平方和分解式。
(三)E S ,A S 的统计特性为了引出)2.1('的检验统计量,我们依次来讨论E S ,A S 的一些统计特性。
(1)E S 的统计特性 将E S 写成∑∑∑=⋅=⋅=⋅-++-+-=sn i s is n i i n i i E x x x x x x S 1212221211)()()(21(1.11)注意到∑=⋅-jn i j ij x x 12)(是总体),(2σμj N 的样本方差的1-j n 倍,于是有因各ij x 独立,故(1.11)式中各平方和独立。
由2χ分布的可加性知⎪⎪⎭⎫ ⎝⎛-∑=s j j En S 122)1(~χσ,即 )(~22s n S E-χσ,(1.12)由(1.12)式还可知,E S 的自由度为s n -。
且有2)()(σs n S E E -=(1.13)(2)A S 的统计特性我们看到∑∑∑=⋅==⋅-=-=sj j j sj n i j A x x n x x S j12112)()(是s 个变量)(x x n j j -⋅(s j ,,2,1 =)的平方和,它们之间仅有一个线性约束条件 故知A S 的自由度为1-s 。
再由(1.3),(1.6)及ij x 的独立性,知),(~2nN x σμ (1.14)即得由)1.1('式,知01=∑=sj j j n δ,故有∑=+-=sj j j A n s S E 122)1()(δσ(1.15)进一步还可以证明A S 与E S 独立,且当0H 为真时)1(~22-s S Aχσ(1.16)证略。
思考:当0H 为真时,整个样本来自什么总体? (四)假设检验问题的拒绝域现在我们可以来确定假设检验问题)2.1('的拒绝域了。
由(1.15)式知,当0H 为真时2)1(σ=-s S E A(1.17)即1-s S A 是2σ的无偏估计。
而当1H 为真时,012>∑=sj j j n δ,此时 21221)1(σδσ>-+=-∑=s n s S E sj jj A(1.18)又由(1.13)式知2)(σ=-sn S E E(1.19)即不管0H 是否为真,sn S E-都是2σ的无偏估计。
综上所述,分式的分子与分母独立,E S 的分布与0H 无关,分母的数学期望总是2σ。
当0H 为真时,分子的数学期望为2σ,而当1H 为真时,由(1.18)式分子的取值有偏大的趋势。
故知检验问题)2.1('的拒绝域具有形式其中k 由预先给定的显着性水平α确定。
由(1.12),(1.16)式及E S 与A S 的独立性知,当0H 为真时,由此得检验问题)2.1('的拒绝域为),1(1s n s F sn S s S F E A--≥--=α (1.20)上述分析的结果可排成表9.5的形式,称为方差分析表。
表中1-=∆s S S A A ,sn SS E E -=∆分别称为A S ,E S 的均方。
思考:当0H 为真时,均方的数学期望分别是什么?因此均方又可以称什么?另外,由于在T S 中n 个变量x x ij -之间仅满足一个约束条件(1.6),故T S 的自由度为1-n 。
例4如上所述,在例1中需要检验假设3210:μμμ==H 3211,,:μμμH 不全相等试取05.0=α,完成这一假设检验。
解:因92.3289.3)12,2(05.0<=F ,故在水平0.05下拒绝0H ,认为各台机器生产的薄板厚度有显着的差异。
例5设在例2中的四种类型电路的响应时间的总体均为正态,且各总体的方差相同。
又设各样本相互独立。
试取05.0=α,检验各类型电路的响应时间是否有显着差异。
解:我们需检验假设43210:μμμμ===H 43211,,,:μμμμH 不全相等因76.334.3)14,3(05.0<=F ,故在水平0.05下拒绝0H ,认为各类型电路的响应时间有显着差异。
(五)未知参数的估计上面已讲到过,不管0H 是否为真,sn S E-都是2σ的无偏估计,因此 又由(1.14),(1.7)式知,μ=)(x E ,j n i ijjj jxE n x E μ==∑=⋅1)(1)(,s j ,,2,1 =,故x =μˆ,j j x ⋅=μˆ 分别是μ,j μ的无偏估计。
又若拒绝0H ,这意味着s δδδ,,,21 不全为零。
由于s j j j ,,2,1, =-=μμδ,知x x j j-=⋅δˆ是j δ的无偏估计。
当拒绝0H 时,常需要作出两总体),(2σμj N 和),(2σμk N ,k j ≠的均值差k j k j δδμμ-=-的区间估计。