第八章方差分析与回归分析

格式：doc
大小：1.12 MB
文档页数：14

下载文档原格式

/ 14

方差分析与回归分析

方差分析与回归分析在统计学中，方差分析和回归分析都是常用的统计方法，用于研究不同变量之间的关系。

虽然两种分析方法的目的和应用领域有所不同，但它们都有助于我们深入理解数据集，并从中获得有关变量之间关系的重要信息。

一、方差分析方差分析（Analysis of Variance，简称ANOVA）是一种用于比较三个或三个以上样本均值是否存在显著差异的统计方法。

方差分析的主要思想是通过比较组间方差与组内方差的大小来判断样本均值之间的差异是否具有统计学意义。

方差分析通常包括以下几个基本步骤：1. 设置假设：首先我们需要明确研究的问题，并设置相应的零假设和备择假设。

零假设通常表示各组均值相等，备择假设表示各组均值不全相等。

2. 计算统计量：利用方差分析的原理和公式，我们可以计算出F值作为统计量。

F值表示组间均方与组内均方的比值，用于判断样本均值之间的差异是否显著。

3. 判断显著性：通过查找F分布表，我们可以确定相应的拒绝域和临界值。

如果计算出的F值大于临界值，则可以拒绝零假设，认为样本均值存在显著差异。

4. 后续分析：如果方差分析结果显示样本均值存在显著差异，我们可以进行进一步的事后比较分析，比如进行多重比较或构建置信区间。

方差分析广泛应用于生物医学、社会科学、工程等各个领域。

通过方差分析可以帮助我们研究和理解不同组别之间的差异，并对实验设计和数据分析提供重要的指导和支持。

二、回归分析回归分析（Regression Analysis）是一种用于探究自变量与因变量之间关系的统计方法。

回归分析的目标是建立一个可信度高的数学模型，用以解释和预测因变量的变化。

回归分析可以分为线性回归和非线性回归两种类型。

线性回归基于一条直线的关系来建立模型，非线性回归则基于其他曲线或函数形式的关系进行建模。

进行回归分析的主要步骤如下：1. 收集数据：首先需要收集自变量和因变量的数据。

确保数据的准确性和完整性。

2. 确定模型：根据数据的特点和研究的目标，选择适当的回归模型。

一元非线性回归分析

y
x
0.00082917 0.00896663x
第八章方差分析与回归分析
第22页
三种方法的拟合效果比较：
112 散点图回归函数
111
110
109
108
107
106
2
4
6
8
10
12
14
16
18
20
112 散点图回归函数
111
110
109
108
107
106
2
4
6
8
10
12
14
16
18
20
R2 =0.97292374957556 R2 =0.87731500489620
第八章方差分析与回归分析
第9页
format long
x=[2 3 4 5 7 8 10 11 14 15 16 18 19];
y=[106.42 108.20 109.58 109.5 110 109.93 110.49 110.59 110.60 110.9 110.76 111 111.20];
y 106.3147 3.9466ln x
y 106.3013 1.1947 x y 100 11.7506e1.1256/ x
第八章方差分析与回归分析
第16页
三种方法的拟合效果比较：
112 散点图回归函数
111
110
109
108
107
106
2
4
6
8
10
12
14
16
18
20
plot(x,y,‘k+’);%数据的散点图

方差分析与回归分析

有因素A是显著的，即浓度不同对产量有显著性影响，而温度
以及浓度和温度的交互作用对产量无显著性影响，也就是说为
了提高产量必须控制好浓度。
2 、双因素无重复试验的方差分析在双因素试验中,对每一对水平组合只做一次试验,即不重复实验,得到
上一页下一页返回
上一页下一页返回
总平方和误差平方和
例9.3 某化工企业为了提高产量，选了三种不同浓度、四种不同温度做试验。在同一浓度与温度组合下各做两次试验，其数据如
下表所示，在显著性水平α=0.05下不同浓度和不同温度以及它们
间的交叉作用对产量有无显著性影响？
B A
A1 A2 A3
B1
14,10 9,7 5,11
B2
11,11 10,8 13,14
检验温度对该化工产品的得率是否有显著影响。
解: 计算各个水平下的样本均值，得
上一页下一页返回
计算 ST=106.4, SA=68.4, SE =38.0
单因素试验的方差分析表：
方差来源平方和自由度 F值临界值
显著性
因素A 误差
总计
68.4 4 38.0 10
106.4 14
4.5 F0.05(4,10)=3.48 ※ 4.5 F0.01(4,10)=5.99
变量Y服从正态分布
，即Y的概率密度为
其中
，而是不依赖于x的常数。
上一页下一页返回
在n次独立试验中得到观测值（x1,y1）,（x2,y2）,… （xn,yn），利用极大似然估计法估计未知参数a1, a2，… ak,时，
有似然函数
似然函数L取得极大值，上式指数中的平方和
取最小值。
即为了使观测值（xi , yi）(i=1,2,…,n)出现的可能性最大，应当选择参数a1,a2,…,ak，使得观测值yi与相应的函数值

方差分析与回归分析

方差分析与回归分析在统计学中，方差分析（ANOVA）和回归分析（Regression Analysis）都是常见的统计分析方法。

它们广泛应用于数据分析和实证研究中，有助于揭示变量之间的关系和影响。

本文将对方差分析和回归分析进行介绍和比较，让读者更好地理解它们的应用和区别。

一、方差分析方差分析是一种统计方法，用于比较两个或更多组别的均值是否存在显著差异。

它通过计算组内变异和组间变异的比值来判断不同组别间的差异是否具有统计显著性。

在方差分析中，通常有三种不同的情形：单因素方差分析、双因素方差分析和多因素方差分析。

单因素方差分析适用于只有一个自变量的情况。

例如，我们想要比较不同教育水平对收入的影响，可以将教育水平作为自变量分为高中、本科和研究生三个组别，然后进行方差分析来检验组别之间的收入差异是否显著。

双因素方差分析适用于有两个自变量的情况。

例如，我们想要比较不同教育水平和不同工作经验对收入的影响，可以将教育水平和工作经验作为自变量，进行方差分析来研究其对收入的影响程度和相互作用效应。

多因素方差分析适用于有多个自变量的情况。

例如，我们想要比较不同教育水平、工作经验和职位对收入的影响，可以将教育水平、工作经验和职位作为自变量，进行方差分析来探究它们对收入的联合影响。

方差分析的基本原理是计算组内变异和组间变异之间的比值，即F 值。

通过与临界F值比较，可以确定差异是否显著。

方差分析的结果通常会报告组间平均差异的显著性水平，以及可能存在的交互作用。

二、回归分析回归分析是一种统计方法，用于研究自变量与因变量之间的关系。

它通过建立一个数学模型来描述自变量对因变量的影响程度和方向。

回归分析分为简单线性回归和多元线性回归两种类型。

简单线性回归适用于只有一个自变量和一个因变量的情况。

例如，我们想要研究体重与身高之间的关系，可以将身高作为自变量、体重作为因变量，通过拟合一条直线来描述二者之间的关系。

多元线性回归适用于有多个自变量和一个因变量的情况。

方差分析与回归

方差分析的应用场景
总结词
方差分析适用于处理多组数据，当需要比较不同组之间的均值差异时，可以使用方差分析。
详细描述
方差分析广泛应用于各种领域，如社会科学、医学、经济学等。例如，在心理学中，研究者可以使用方差分析比较不同年龄段的人在智力测试中的得分差异；在医学研究中，方差分析可以用于比较不同药物治疗对患者的疗效。
数据降维
通过回归分析找出影响因变量的关键因素，从而降低数据的维度。
回归分析的优缺点
优点
能够找出自变量和因变量之间的关系，并建立数学模型进行预测；能够处理多个自变量和因变量之间的关系；能够量化自变量对因变量的影响程度。
缺点
假设数据符合线性关系，对于非线性关系的数据拟合效果可能不佳；对于异常值和离群点敏感，容易影响模型的稳定性；对于共线性问题处理不够理想，可能导致模型失真。
它通过选择合适的数学模型和参数，使因变量的预测值与实际值之间的误差最小化，从而得到最佳的预测结果。
回归分析的应用场景
预测模型
利用已知的自变量数据来预测因变量的未来值，如销售预测、股票价格预测等。
因素分析
研究自变量对因变量的影响程度，如研究广告投入对销售额的影响程度。
分类问题
将因变量进行分类，如根据多个特征将客户进行分类。
3
指导实践
分析结果可以为实际工作提供指导，例如在市场营销中预测销售量、在医学中预测疾病发病率等。
方差分析与回归的未来发展
算法改进
多变量分析
随着计算能力的提升，未来会有更高效的算法出现，提高分析的准确性和速度。
目前许多方差与回归分析集中在二元或三元关系上，未来会有更多研究关注多变量之间的关系。
回归分析实例

方差分析和回归分析

方差分析和回归分析方差分析和回归分析是统计学中常用的两种数据分析方法。

它们分别用于比较多个样本之间的差异以及建立变量之间的函数关系。

本文将对方差分析和回归分析进行介绍和比较。

一、方差分析方差分析（Analysis of Variance，简称ANOVA）是一种用于比较多个样本均值是否存在差异的统计方法。

方差分析通过比较组间和组内的方差来判断样本均值是否存在显著差异。

方差分析需要满足一些基本假设，如正态分布假设和方差齐性假设。

方差分析可以分为单因素方差分析和多因素方差分析。

单因素方差分析是指只有一个自变量（因素）对因变量产生影响的情况。

多因素方差分析则包含两个或两个以上自变量对因变量的影响，可以用于分析多个因素交互作用的效应。

方差分析的步骤包括建立假设、计算各组均值和方差、计算F值和判断显著性等。

通过方差分析可以得到组间显著性差异的结论，并进一步通过事后多重比较方法确定具体哪些组之间存在显著差异。

二、回归分析回归分析（Regression Analysis）是一种用于分析自变量和因变量之间关系的统计方法。

回归分析通过建立一种数学模型，描述自变量对因变量的影响程度和方向。

回归分析可用于预测、解释和探索自变量与因变量之间的关系。

回归分析可以分为线性回归和非线性回归。

线性回归是指自变量和因变量之间存在线性关系的情况，可以用一条直线进行拟合。

非线性回归则考虑了自变量和因变量之间的非线性关系，需要采用曲线或其他函数来进行拟合。

回归分析的步骤包括建立模型、估计参数、检验模型的显著性、预测等。

回归模型的好坏可以通过拟合优度、回归系数显著性以及残差分析等指标进行评估。

三、方差分析与回归分析的比较方差分析和回归分析都是常用的统计方法，但它们有一些区别。

主要区别包括：1. 目的不同：方差分析用于比较多个样本之间的差异，判断样本均值是否存在显著差异；回归分析则用于建立自变量和因变量之间的函数关系，预测和解释因变量。

2. 自变量个数不同：方差分析一般只有一个自变量（因素），用于比较不同组别之间的差异；回归分析可以包含一个或多个自变量，用于描述自变量对因变量的影响关系。

概率论课件_高教版_第八章_方差分析与回归分析

MS A 168.00 F 20.56 MS e 8.17
查附表在f1=3，f2=12时， F0.05=3.49，F0.01=5.95 实得 F＞ F0.01或 P＜0.01，说明药剂处理有统计意义。
四、单因素方差分析模型参数的估计当方差分析结果为否定原假设时，就需要估计模型的有关参数，下面就讨论方差分析模型参数的估计。单因素方差分析的模型为 xij i ij i 1,2, , r 2 ~ N ( 0 , ), 且相互独立 j 1,2, , m ij 其中为总以平均效应， i为因素A的第i个水平Ai 对试验指标的作用; ij为随机因素对试验指标值的影响。需要估计的参数有 , i , 2。不难证明这些参数的极大似然估计量为： 1 r m 1 m 1 r m ˆ i xij ˆ xij xij rm i 1 j 1 m j rm i 1 j 1 1 r m 1 2 2 ˆ ˆ) ( xij SSe rm i 1 j 1 rm
Tr
T

xr
x
其中xij是因素A第i水平下第j次重复试验结果 , m r m r T T Ti xij xi T xij Ti x . m rm j 1 i 1 j 1 i 1
单因素方差分析的统计模型
试验数据xij满足 xij i ij i 1,2,, r 2 ~ N ( 0 , ),且相互独立 j 1,2,, m ij 其中为总以平均效应， i为因素A的第i个水平Ai 对试验指标的作用 ; ij为随机因素对试验指标值的影响。
鸡重/g-1000
60 80 1 2 12 9 28
Ti

方差分析回归分析

案例二：不同地区教育水平的方差分析
总结词
通过比较不同地区的教育水平，了解各地区教育发展的差异，为政府制定教育政策提供科学依据。
VS
详细描述
收集不同地区的教育水平数据，包括学校数量、教师质量、学生成绩等。利用方差分析方法，分析各地区教育水平是否存在显著差异，并探究影响教育水平的因素。根据分析结果，提出针对性的教育政策建议，促进教育公平和发展。
应用范围
方差分析主要应用于实验设计、质量控制等领域，而回归分析则广泛应用于预测、建模和决策等领域。
04
方差分析的实际应用案例
案例一：不同品牌电视销量的方差分析
总结词
通过对比不同品牌电视的销量，分析品牌、型号、价格等因素对销量的影响，有助于企业了解市场需求和竞争态势。
详细描述
选取市场上不同品牌、型号、价格的电视，收集其销量数据。利用方差分析方法，分析各品牌电视销量是否存在显著差异，并进一步探究价格、功能等变量对销量的影响。根据分析结果，为企业制定营销策略提供依据。
05
回归分析的实际应用案例
案例一：预测股票价格与成交量的回归分析
总结词
股票价格与成交量之间存在一定的相关性，通过回归分析可以预测股票价格的走势。
详细描述
通过收集历史股票数据，分析股票价格与成交量之间的相关性，建立回归模型。利用该模型，可以预测未来股票价格的走势，为投资者提供决策依据。
详细描述
方差分析在许多领域都有广泛的应用，如心理学、社会科学、生物统计学和经济学等。它可以用于比较不同组数据的均值差异，探索因子对因变量的影响，以及处理分类变量和连续变量的关系。通过方差分析，研究者可以更好地理解数据结构和关系，为进一步的数据分析和解释提供依据。

第八章方差分析与回归分析

第八章方差分析与回归分析§8.1 方差分析8.1.1 问题的提出举例说明概念因子和水平。

因子：对研究对象产生影响的因素。

水平：因子所处的状态。

8.1.2 单因子方差分析的统计模型在研究中只考察一个因子则称为单因子试验，其中，记因子为A ，设其有r 个水平，记为r A A ,,1 ，在每一水平下考察的指标可以看成一个总体，现有r 个水平，故有r 个总体，假定：(1)每一总体均为正态总体，记为r i N i i ,,2,1),,(2；(2)各总体的方差相同，记222221 r ；(3)从每一总体中抽取的样本是相互独立的，即所有的试验结果ij y 都相互独立。

这些假定都可以用统计方法进行验证。

首先比较各水平下的均值是否相同，即要对如下的一个假设进行检验，不全相等r rH H ,,,::211210在不会引起误解的前提下，1H 通常可以省略不写。

若0H 成立，则称因子A 不显著，否则，称因子A 显著。

对如上的假设进行检验，需要从每一水平下的总体抽取样本，设从第i 个水平下的总体获得m 个试验结果(各个水平下相同)，记ij y 表示第i 个总体的第j 次重复试验结果。

共得如下m r 个试验结果：m j r i y ij ,,1,,,1,其中r 为水平数，m 为重复数，i 为水平编号，j 为重复编号。

在水平i A 下的试验结果ij y 与该水平下的指标均值i 一般总是有差距的，记i ij ij y ，ij 称为随机误差，于是有ij i ij y上式称为试验结果ij y 的数据结构式。

把三个假定用于数据结构式就可以写出单因子方差分析的统计模型：),0(,,1,,,1,2 N m j r i y ij ij i ij 相互独立，且都服从诸为了能更好地描述数据，常引入总均值和效应的概念：总均值：诸i 的平均 ri i r r 11 ；称第i 水平下的均值i 与总均值的差i i a ，r i ,,1为因子A 的第i 水平的主效应，简称为i A 的效应。

方差分析与回归分析

方差分析与回归分析方差分析与回归分析是统计学中常用的两种分析方法，用来研究变量之间的关系和影响。

本文将分别介绍方差分析和回归分析的基本原理、应用场景以及相关注意事项。

**方差分析**方差分析（ANOVA）是一种用来比较两个或多个总体均值是否相等的统计方法。

它主要用于处理两个或多个组之间的变量差异性比较。

方差分析将总体方差分为组间方差和组内方差，通过比较组间方差与组内方差的大小来判断组间均值是否存在显著差异。

方差分析的应用场景包括但不限于医学研究、实验设计、市场调研等领域。

通过方差分析，研究者可以判断不同组之间是否存在显著差异，从而得出结论或制定决策。

在进行方差分析时，需要注意一些问题。

首先，要确保各组数据符合方差分析的假设，如正态性和方差齐性。

其次，要选择适当的方差分析方法，如单因素方差分析、多因素方差分析等。

最后，要正确解读方差分析结果，避免误解导致错误结论。

**回归分析**回归分析是一种用来研究自变量与因变量之间关系的统计方法。

通过构建回归方程，可以预测因变量在给定自变量条件下的取值。

回归分析主要包括线性回归和非线性回归两种方法，用于描述自变量与因变量之间的相关性和影响程度。

回归分析的应用领域广泛，包括经济学、社会学、医学等。

通过回归分析，研究者可以探究变量之间的复杂关系，找出影响因变量的主要因素，并进行预测和控制。

在进行回归分析时，需要考虑一些重要问题。

首先，要选择适当的回归模型，如线性回归、多元回归等。

其次，要检验回归方程的拟合度和显著性，确保模型的准确性和可靠性。

最后，要谨慎解释回归系数和预测结果，避免过度解读和误导性结论。

综上所述，方差分析与回归分析是统计学中常用的两种分析方法，分别用于比较组间差异和探究变量关系。

通过正确应用这两种方法，可以帮助研究者得出准确的结论和有效的决策，推动学术研究和实践应用的发展。

第八章方差分析与回归分析（1）

第⼋章⽅差分析与回归分析（1）第⼋章⽅差分析与回归分析习题8.1 P3801、在⼀个单因⼦试验中，因⼦A 有三个⽔平，每个⽔平下各重复4次，具体数据如下：试计算误差平⽅和e S 、因⼦A 的平⽅和A 、总平⽅和T ，并指出它们各⾃的⾃由度．2、在⼀个单因⼦试验中，因⼦A 有四个⽔平，每个⽔平下各重复的次数分别为5，7，6，8。

那么误差平⽅和、A 的平⽅和及总平⽅和的⾃由度各是多少？5、⽤4种安眠药在兔⼦⾝上进⾏试验，特选24只健康的兔⼦，随机把它们均分为4组，每组各服⼀种安眠药，安眠时间如下所⽰:在显著⽔平α=习题8.2 P3873、有7种⼈造纤维，每种抽4根测其强度，得每种纤维的平均强度及标准差如下：（1）试问七种纤维强度间有⽆显著性差异（0.05α=）（2）若七种纤维的强度间⽆显著性差异，则给出平均强度的置信⽔平为0.95的置信区间；若各种纤维的强度间有显著差异，请进⼀步在0.05α=下进⾏多重⽐较，并指出那种纤维的平均强度最⼤，同时该种纤维平均强度的置信⽔平为0.95的置信区间。

习题8.3 P3942、在安眠药试验中（见习题8.1.5）中已求得到四个样本⽅差：222212340.02,0.08,0.036,0.1307s s s s ====请⽤Hartley 检验在显著⽔平0.05α=下考察四个总体⽅差是否彼此相等。

习题8.4 P4111、假设回归直线过原点，即⼀元线性回归模型为,1,2,...i i i y x i n βε=+=()()20,,i i E Var εεσ==诸观测值相互独⽴。

（1）写出2,βσ的最⼩⼆乘估计；（2）对给定的0x ，其对应的因变量均值的估计为0y ，求()0Var y 。

3、在回归分析计算中，常对数据进⾏变换1212,,1,...i i i i y c x cy x i n d d --=== 其中()()121122,,0,0c c d d d d >>是适当选取的常数。

方差分析与回归分析

方差分析与回归分析方差分析（Analysis of Variance，缩写为ANOVA）与回归分析（Regression Analysis）是统计学中常用的两种数据分析方法。

它们在不同领域的研究中有着重要的应用，用于探究变量之间的关系以及预测、解释和验证数据。

一、方差分析方差分析是一种用于比较两个或多个样本均值是否差异显著的统计方法。

它通过计算各组之间的离散程度来揭示变量之间的关系。

方差分析常用于实验设计和实验结果的分析，可以帮助研究人员确定各因素的影响程度。

在方差分析中，我们首先将数据进行分组，然后计算每个组的方差。

通过比较各组之间的方差，我们可以判断其是否有显著差异。

方差分析根据研究设计的不同，可以分为单因素方差分析和多因素方差分析。

单因素方差分析适用于只有一个自变量（因素）的情况，而多因素方差分析则适用于多个自变量（因素）的情况。

方差分析的结果一般通过计算F值来判断各组之间的差异是否显著。

如果F值大于临界值，则可以拒绝原假设，认为各组之间存在显著差异。

反之，如果F值小于临界值，则无法拒绝原假设，即各组均值没有显著差异。

二、回归分析回归分析是一种用于研究变量之间关系的统计方法。

它根据自变量（独立变量）与因变量（依赖变量）之间的相关性，建立一个预测模型来预测或解释因变量的变化。

在回归分析中，我们首先收集自变量和因变量的数据，然后通过建立数学模型来描述它们之间的关系。

常用的回归模型包括线性回归、多项式回归、逻辑回归等。

通过回归分析，我们可以估计自变量对于因变量的影响程度，并根据模型进行预测和解释。

在回归分析中，我们通常使用R方（R-squared）来衡量模型的拟合程度。

R方的取值范围在0到1之间，越接近1表示模型的拟合效果越好。

此外，回归分析还可以通过计算标准误差、系数显著性、残差分析等指标来评估模型的质量。

结论方差分析与回归分析是统计学中常用的两种数据分析方法。

方差分析适用于比较多个样本均值的差异性，而回归分析用于研究变量之间的关系和预测。

方差分析与回归分析

第八章方差分析与回归分析一、教材说明本章内容包括：方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容.1、教学目的与教学要求(1)了解方差分析的统计模型，掌握平方和的分解，熟悉检验方法和参数估计，会解决简单的实际问题.（2）了解效应差的置信区间的求法，了解多重比较问题，掌握重复数相等与不相等场合的方法，会解决简单的实际问题.（3）熟练掌握Hartley 检验，Bartlett 检验以及修正的Bartlett 检验三种检验方法，会解决简单的实际问题.（4）理解变量间的两类关系，认识一元线性和非线性回归模型，熟悉回归系数的估计方法，熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析，会解决简单的实际问题.2、本章的重点与难点本章的重点是平方和的分解，检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握，回归系数的估计方法，回归方程的显著性检验，难点是检验方法和参数估计，重复数相等与不相等场合的方法. 实际问题的检验，回归方程的显著性检验.二、教学内容本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容.§8.1 方差分析教学目的：了解方差分析的统计模型，掌握平方和的分解，熟悉检验方法和参数估计,会解决简单的实际问题.教学重点：平方和的分解，检验方法和参数估计教学难点：检验方法和参数估计教学内容：本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形.8.1.1 问题的提出在实际工作中经常会遇到多个总体均值的比较问题，处理这类问题通常采用方差分析方法.例8.1.18.1.2 单因子方差分析的统计模型在例8.1.1中，我们只考察一个因子，称为单因子试验.记因子为A ，设其有r 个水平，记为1r A ,,A ，在每一水平下考察的指标可看做一个总体，故有r 个总体，假定（1）每一总体均为正态总体，记为2i i N(,)μσ，i 1,2,,r =；（2）各总体方差相同，即222212r σσσσ====（3）每一总体中抽取的样本相互独立，即诸数据ij y 都相互独立在这三个基本假定下，要检验的假设是012112::,,,rr H H μμμμμμ===↔⋯不全相等（8.1.1）如果0H 成立，因子A 的r 个水平均值相同，称因子A 的r 个水平间没有显著差异，简称因子A 不显著；反之，若0H 不成立，因子A 的r 个水平均值不全相同，称因子A 的r 个水平间有显著差异，简称因子A 显著.在每一水平下各作m 次独立重复试验，若记第i 个水平下第j 次重复的实验结果为ij y ，得到r m ⨯个实验结果：ij y ,=1,2,,=1,2,,.i r j m在水平A i 下的实验结果ij y 与该水平下的均值i μ的差距ij ij =y -i εμ称为随机误差.于是有ij ij y =+i εμ，（8.1.2）该式称为实验结果ij y 的数据结构式.把三个假定用于数据结构式就得到单因子方差分析的统计模型：ij ij 2ij y =+,=1,2,,=1,2,,;(0,)i i r j m N εμεσ⎧⎪⎨⎪⎩诸相互独立，且都服从（8.1.3）称诸i μ的平均1=111=(++)=rr i i r r μμμμ∑为总均值，第i 水平下均值i μ与总均值的差=-i i a μμ称为因子A 的第i 水平的主效应，简称为A i 的主效应.则有=1=0,=+.ri i i i a a μμ∑统计模型（8.1.3）可改写为ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i r j m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立，且都服从假设（8.1.1）可改写为012112:=0:,,,0r r H a a a H a a a ===↔⋯不全为.8.1.3 平方和分解一实验数据在单因子方差分析中可将实验数据列成如下表格形式因子水平试验数据和平均1A 11y 12y 1m y 1T 1y2A 21y 22y 2m y 2T 2yr A r1y r2y rm y r T yr合计 T y 二组内偏差与组间偏差ij ij y -=(y -)+(-)i i y y y y ，记=1i =1i =1=1111=,==m r r mi i j i i j j jm r n εεεεε∑∑∑∑，ij y -i y 称为组内偏差，-i y y 称为组间偏差.三偏差平方和及其自由度在统计学中，把k 个数据1,,k y y 分别对其均值1=(++)/k y y y k 的偏差平方和2=1=(-)ki i Q y y ∑称为k 个数据的偏差平方和，简称平方和.由于=1(-)=0kii y y ∑，说明在Q 中独立的偏差只有-1k 个，称为该平方和的自由度，记为f ，=-1.Q f k四总平方和分解公式各ij y 间总的差异大小可用总偏差平方和T S 表示为211(),=-1r mT ij T i j S y y f n ===-∑∑. （8.1.3）仅由随机误差引起的数据间差异可用组内偏差平方和，也称误差偏差平方和，记为e S ，211(),=r(m-1)=n-r.r me ij e i i j S y yf ===-∑∑ （8.1.4）由效应不同引起的数据差异可用组间偏差平方和表示，也称为因子A 的偏差平方和，记为A S ，21(),=-1.rA A ii S myy f r ==-∑ （8.1.5）定理8.1.1 在上述符号下，总平方和T S 可分解为因子平方和.A S 与误差平方和e S 之和，其自由度也有相应分解公式：S =,=+.T A e T A e S S f f f + （8.1.6）称为总平方和分解式.8．1.4 检验方法为了度量一组数据的离散程度，称/Q MS Q f =为均方和.由均方和的概念，得到/A A A MS S f =，/e e e MS S f =，用/A e F MS MS =作为检验的统计量，为给出检验拒绝域，需要如下定理：定理8.1.2 在单因子方差分析模型及前述符号下，有（1）22~-),es n r χσ（从而2()=(-)e E S n r σ(2) 22=1()=(-1)+rA i i E S r maσ∑,若0H 成立，则有22~(1)AS r χσ-（3）A S 与e S 相互独立. 由定理8.1.2知/(,)A eA e F MS MS F f f = ，从而可得检验的拒绝域为1{(,)}A e W F F f f α-=≥.将上述结果列成表格，称为方差分析表来源平方和自由度均方和 F 比因子 A S 1A f r =- /A A A MS S f = /A e F MS MS = 误差 e S -e f n r = /e e e MS S f = 总和 T S 1T f n =-若1(,)A e F F f f α->，则可以认为因子A 显著，即诸正态均值间有显著差异；若1<(,)A e F F f f α-，则说明因子A 不显著，即保留原假设0H . 常用偏差平方和的计算公式：2211rmT ij i j T S y n ===-∑∑2211r A i i T S T m n ==-∑e T A S S S =-例8.1.28.1.5 参数估计在检验结果为显著时，可进一步求出总均值μ，各主效应i a 和误差方差2σ的估计. 一点估计总均值μ的估计为ˆy μ=；各水平均值i μ的估计ˆ,1,2,,i i y i r μ==；主效应i a 的估计ˆ,1,2,,i i ay y i r =-=误差方差2σ的估计2ˆ/e e e MS S f σ== 二置信区间由定理8.1.2知 222~N(,/m),~),ei i e s y μσχσ（f 且两者独立，~t ),i i e f （由此给出A i 的水平均值i μ的1α-的置信区间是1/2ˆ()i e y t f ασ-±. 例8.1.3单因子试验的数据分析可以知道如下三个结果因子A 是否显著试验误差方差2σ的估计诸水平均值i μ的点估计与区间估计（此项在因子A 不显著时无需进行）8.1.6 重复数不等情形1. 数据设因子A 有r 个水平1r A ,,A ，并且第r 个水平i A 下重复进行i m 次试验，可得如下数据：因子水平重复数试验数据和平均1A 1m 11y 12y 11m y 1T 1y2A 2m 21y 22y 22m y 2T 2yr A r m r1y r2y r rm y r T ry合计 nTy2. 基本假定、平方和分解、方差分析和判断准则都和前面一样，只是因子A 的平方和A S 的计算公式略有不同：记1ri i n m ==∑，则221ri A i iT T S m n ==-∑ 3. 数据结构式及参数估计式基本同前，需要注意下面两点：（1）总均值11ri i i m n μμ==∑；（2）主效应约束条件为10ri ii m a==∑类似于8.1.8 有ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i i r j m m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立，且都服从 4 各平方和的计算记1,=im i i ij i j i T T y y m ==∑，=11,=im r ij i j TT y y n ==∑∑则2211,=-1,im rT ij T i j T S y f n n ===-∑∑221,=-1,ri A A i iT T S f r m n ==-∑,=-e T A e S S S f n r =-.例8.1.4 略§8.2 多重比较教学目的：了解效应差的置信区间的求法，了解多重比较问题，掌握重复数相等与不相等场合的方法，能用R 软件来进行多重比较，会解决简单的实际问题。

概率论与数理统计(茆诗松)第二版课后第八章习题参考答案

第八章方差分析与回归分析本章前三节研究方差分析，讨论多个正态总体的比较，后两节研究回归分析．讨论两个变量之间的相关关系．§8.1 方差分析8.1.1问题的提出上一章讨论了单个或两个正态总体的假设检验，这里讨论多个正态总体的均值比较问题．通常为了研究某一因素对某项指标的影响情况，将该因素在多种情形下进行抽样检验，作出比较．一般将该因素称为一个因子，所检验的每种情形称为水平．在每个水平下需要考察的指标都分别构成一个总体，比较它们的总体均值是否相等．对每一个总体都分别抽取一个样本，样本容量称为重复数．如果只对一个因子中的多个水平进行比较，称为单因子方差分析，对多个因子的水平进行比较，称为多因子方差分析．本章只进行单因子方差分析．例在饲料养鸡增肥的研究中，现有三种饲料配方：A 1 , A 2 , A 3 ，为比较三种饲料的效果，特选24只相似的雏鸡随机均分为三组，每组各喂一种饲料，60天后观察它们的重量．实验结果如下表所示：饲料鸡重/gA 1 1073 1009 1060 1001 1002 1012 1009 1028 A 2 1107 1092 990 1109 1090 1074 1122 1001 A 3 1093 1029 1080 1021 1022 1032 1029 1048 在此例中，就是要考察饲料对鸡增重的影响，需要比较三种饲料对鸡增肥的作用是否相同．这里，饲料就是一个因子，三种饲料配方就是该因子的三个水平，每种饲料喂养的雏鸡60天后的重量分别构成一个总体，这里共有3个总体，每一个总体抽取样本的重复数都是8，比较这3个总体的均值是否相等． 8.1.2单因子方差分析的统计模型设因子A 有r 个水平A 1 , A 2 , …, A r ，在每个水平下需要考察的指标都构成一个总体，即有r 个总体，分别记为Y 1 , Y 2 , …, Y r ，对每一个总体都分别抽取一个样本，首先考虑重复数相等的情形，设重复数都是m ，总体Y i 的样本Y i 1 , Y i 2 , …, Y im ，i = 1, 2, …, r ．作出以下假定：（1）每一个总体都服从正态分布，即r i N Y i i i ,,2,1),,(~2L =σµ；（2）各个总体的方差都相等，即22221r σσσ===L ，都记为σ 2；（3）各个总体及抽取的样本相互独立，即Y ij 相互独立，i = 1, 2, …, r ，j = 1, 2, …, m ．需要比较它们的总体均值是否相等，即检验的原假设与备择假设为H 0：µ 1 = µ 2 = … = µ r vs H 1：µ 1 , µ 2 , …, µ r 不全相等，如果H 0成立，就可以认为这r 个水平下的总体均值相同，称为因子A 不显著；反之，如果H 0不成立，就称为因子A 显著．在水平A i 下的样品Y ij 与该水平下的总体均值µ i 之差ε ij = Y ij − µ i 为随机误差．由于Y ij ~ N (µ i , σ 2 )，因此随机误差ε ij ~ N (0 , σ 2 )．对所有r 个水平下的总体均值求平均，即∑==+++=ri i r r r 1211)(1µµµµµL称为总均值．每个水平A i 下的总体均值µ i 与总均值µ 之差a i = µ i − µ 称为该水平A i 下主效应．显然所有主效应a i 之和等于0，即01=∑=ri ia，检验所有水平下的总体均值是否相等，也就是检验所有主效应a i 是否全等于0．这样单因子方差分析在重复数相等的情形下，统计模型为⎪⎪⎩⎪⎪⎨⎧===++=∑=).,0(;0;,,2,1,,,2,1,21σεεµN a m j r i a Y ij r i i ij i ij 相互独立，且都服从L L 检验的原假设与备择假设为H 0：a 1 = a 2 = … = a r = 0 vs H 1：a 1 , a 2 , …, a r 不全等于0． 8.1.3平方和分解一．试验数据对于r 个总体下的试验数据Y ij , i = 1, 2, …, r ，j = 1, 2, …, m ，记T i 表示第i 个总体下试验数据总和，⋅i Y 表示第i 个总体下样本均值，n = rm 表示总的样本容量，T 表示总的试验数据总和，Y 表示总的样本均值，即∑==mj ij i Y T 1，∑=⋅==mj ij i i Y m m T Y 11， i = 1, 2, …, r ，∑∑∑=====r i mj ij r i i Y T T 111，∑∑∑=⋅=====ri i r i m j ij Y r Y rm T n Y 111111，用⋅i Y 作为µ i 的点估计，Y 作为µ 的点估计．又记⋅i ε表示第i 个总体下随机误差平均值，ε表示总的随机误差平均值，即∑=⋅=mj ij i m 11εε， i = 1, 2, …, r ，∑∑∑=⋅====ri i r i m j ij r n 11111εεε．显然有⋅⋅+=i i i Y εµ，εµ+=Y ．在单因子方差分析中通常将试验数据及基本计算结果写成表格形式因子水平试验数据和和的平方平方和A 1 Y 11 Y 12 … Y 1m T 1 21T∑21jY A 2 Y 21 Y 22 … Y 2m T 2 22T∑22jY┆ ┆ ┆ ┆ ┆ ┆ ┆┆A rY r 1Y r 2…Y rmT r2r T ∑2rjYΣ T∑=ri i T 12∑∑==ri mj ijY112二．组内偏差与组间偏差数据Y ij 与样本总均值Y 之差Y Y ij −称为样本总偏差，可以分成两部分之和：)()(Y Y Y Y Y Y i i ij ij −+−=−⋅⋅，其中⋅⋅⋅−=+−+=−i ij i i ij i i ij Y Y εεεµεµ)()(是第i 个总体内数据与该总体内样本均值的偏差，称为组内偏差，反映第i 个总体内的随机误差；εεεµεµ−+=+−+=−⋅⋅⋅i i i i i a Y Y )()(是第i 个总体内样本均值与总样本均值的偏差，称为组间偏差，反映第i 个总体的主效应．三．偏差平方和及其自由度在统计学中，对于k 个独立数据Y 1 , Y 2 , …, Y k ，平均值∑==ki i Y k Y 11，称Y i 与Y 之差为偏差，所有偏差的平方和∑=−=ki i Y Y Q 12)(称为这k 个数据的偏差平方和，反映这k 个数据的分散程度．由于所有偏差之和0)(11=−=−∑∑==Y k Y Y Y ki i k i i ，即这k 个偏差由k 个独立数据受到一个约束条件形成，可以证明它们与k − 1个独立（随机）变量可以相互线性表示，称之为等价于k − 1个独立（随机）变量．一般地，若k 个独立数据受到r 个不相关的约束条件，则它们等价于k − r 个独立（随机）变量．在统计学中，把形成平方和的变量所等价的独立变量个数，称为该平方和的自由度，通常记为f ．如上述偏差平方和Q 的自由度为k − 1，即f Q = k − 1．由于平方和的大小与变量个数（或自由度）有关，为了对偏差进行比较，通常考虑偏差平方和与其自由度之商，称为均方和，记为MS ，反映一组数据的平均分散程度，如样本方差∑=−−=ni i X X n S 122)(11就是样本数据偏差的均方和．四．总平方和分解公式总偏差平方和记为S T 或SST ，其自由度记为f T ，有∑∑==−=r i mj ij T Y Y S 112)(，f T = rm − 1 = n − 1；组内偏差平方和记为S e 或SSE ，其自由度记为f e ，有∑∑==⋅−=r i mj i ij e Y Y S 112)(，f e = r (m − 1) = n − r ；组间偏差平方和记为S A 或SSA ，其自由度记为f A ，有∑∑∑=⋅==⋅−=−=ri i r i m j i A Y Y m Y Y S 12112()(，f A = r − 1．组内偏差平方和反映所有总体内的随机误差，组间偏差平方和反映所有总体的主效应．定理总偏差平方和S T 可以分解为组内偏差平方和S e 与组间偏差平方和S A 之和，其自由度也可作相应的分解，即S T = S e + S A ，f T = f e + f A ，称之为平方和分解公式．证：∑∑∑∑==⋅⋅==−+−=−=ri mj i i ij ri mj ij T Y Y Y Y Y Y S 112112()[()(∑∑∑∑∑∑==⋅⋅==⋅==⋅−−+−+−=ri mj i i ij ri mj i ri mj i ij Y Y Y Y Y Y Y Y 11112112))((2)()(A e A e ri i A e ri mj i ij i A e S S S S Y Y S S Y Y Y Y S S +=++=×−++=−−++=∑∑∑=⋅==⋅⋅0]0[(2])()[(2111，且显然有f T = n − 1 = (n − r ) + (r − 1) = f e + f A ． 8.1.4检验方法由于组内偏差平方和反映所有总体内的随机误差，组间偏差平方和反映所有总体的主效应，通过比较组内偏差平方和与组间偏差平方和检验因子的显著性．下面将证明在假设所有主效应都等于0成立的条件下，它们的均方和之商服从F 分布．定理在单因子方差分析模型中，组内偏差平方和S e 与组间偏差平方和S A 满足（1）E(S e ) = (n − r )σ 2，且)(~22r n Se −χσ；（2）∑=+−=ri i A a m r S 122)1()E(σ，且当H 0：a 1 = a 2 = … = a r = 0成立时，)1(~22−r S Aχσ；（3）S e 与S A 相互独立．证：根据第五章的定理结论知：设X 1 , X 2 , …, X n 相互独立且都服从正态分布N (µ , σ 2)，记∑==ni i X n X 11，∑=−=ni i X X S 120)(，则X 与S 0相互独立，且)1(~22−n S χσ．（1）∑∑==⋅−=ri mj i ij e Y Y S 112)(，Y i 1 , Y i 2 , …, Y im 相互独立且都服从正态分布N(µ i , σ 2)，∑=⋅=mi ij i Y m Y 11，则∑=⋅−mj i ij Y Y 12)(与⋅i Y 相互独立，且)1(~)(12122−−∑=⋅m Y Y mj i ijχσ，因在不同水平下的样本都相互独立，则∑∑==⋅−ri mj i ij Y Y 112)(与⋅⋅⋅r Y Y Y ,,,21L 也相互独立，且根据独立χ 2变量的可加性知)(~)(121122r rm Y Y r i mj i ij−−∑∑==⋅χσ，故)(~)(1211222r n Y Y S r i mj i ije−−=∑∑==⋅χσσ，即得E(S e ) = (n − r )σ 2；（2）∑∑∑∑∑=⋅=⋅==⋅=⋅−+−+=−+=−=ri i i r i i r i ir i i i r i i A a m m a m a m Y Y m S 112121212(2)()()(εεεεεε，因ε ij (i = 1, 2, …, r , j = 1, 2, …, m ) 相互独立且都服从正态分布N (0, σ 2 )，有∑=⋅=m j ij i m 11εε (i = 1, 2, …, r ) 相互独立且都服从正态分布,0(2m N σ，∑=⋅=ri i r 11εε，则0)E()E()E(=−=−⋅⋅εεεεi i 且)1(~)(2212−−∑=⋅r mri i χσεε，即m r r i i 212)1()(E σεε−=⎥⎦⎤⎢⎣⎡−∑=⋅，故21211212)1()E(2)(E )E(σεεεε−+=−+⎥⎦⎤⎢⎣⎡−+=∑∑∑∑==⋅=⋅=r a m a m m a m S ri i r i i i r i i ri iA ，当H 0：a 1 = a 2 = … = a r = 0成立时，∑∑=⋅=⋅−=−=ri i r i i A m Y Y m S 1212)()(εε，故)1(~)(22122−−=∑=⋅r mS ri i Aχσεεσ；（3）因∑∑==⋅−=ri mj i ij e Y Y S 112)(与⋅⋅⋅r Y Y Y ,,,21L 相互独立，有S e 与∑=⋅=ri i Y r Y 11相互独立，且∑=⋅−=ri i A Y Y m S 12(，故S e 与S A 相互独立．由于)(~22r n S e −χσ，当H 0：a 1 = a 2 = … = a r = 0成立时，)1(~22−r S A χσ，且S e 与S A 相互独立，则根据F 分布的定义可知：当H 0成立时，有),1(~)()1(22r n r F MS MS f S f S r n S r S F eAe e A A eA−−==−−=σσ．由于∑=+−=ri i A a m r S 122)1()E(σ，则F 越大，即S A 越大时，越有可能发生a i ≠ 0，则检验的拒绝域为右侧．步骤：假设H 0：a 1 = a 2 = … = a r = 0 vs H 1：a 1 , a 2 , …, a r 不全等于0，统计量),1(~r n r F MS MS f S f S F eAe e A A −−==，显著水平α ，右侧拒绝域W = {f ≥ f 1 − α (r − 1, n − r )}，计算f ，并作出判断．这是F 检验法．通常列成方差分析表：来源平方和自由度均方和 F 比因子 S A f A = r − 1 MS A = S A / f A F = MS A / MS e误差 S e f e = n − r MS e = S e / f A总和S Tf T = n − 1为了计算方便，可给出三个偏差平方和的计算公式．对于一组数据X 1 , X 2 , …, X n ，记∑==ni i X n X 11，则有2112212121)(⎟⎟⎠⎞⎜⎜⎝⎛−=−=−∑∑∑∑====n i i ni i n i i n i i X n X X n X X X ，记∑==m j ij i Y T 1，∑∑∑=====r i mj ij r i i Y T T 111，可得2112211112211211211)(T n Y Y n Y Y n Y Y Y S r i mj ij r i m j ij ri mj ij ri mj ij ri mj ij T −=⎟⎟⎠⎞⎜⎜⎝⎛−=−=−=∑∑∑∑∑∑∑∑∑∑==========， 212211121212121111)(T n T m Y n mr Y m m Y r Y m Y Y m S r i i r i m j ij r i m j ij r i i ri i A −=⎟⎟⎠⎞⎜⎜⎝⎛−⎟⎟⎠⎞⎜⎜⎝⎛=⎥⎦⎤⎢⎣⎡−=−=∑∑∑∑∑∑∑======⋅=⋅， ∑∑∑===−=−=r i i r i mj ijA T e T m Y S S S 121121．例在饲料养鸡增肥的研究中，现有三种饲料配方：A 1 , A 2 , A 3 ，为比较三种饲料的效果，特选24只相似的雏鸡随机均分为三组，每组各喂一种饲料，60天后观察它们的重量．实验结果如下表所示：饲料鸡重/gA 1 1073 1009 1060 1001 1002 1012 1009 1028 A 2 1107 1092 990 1109 1090 1074 1122 1001 A 3 1093 1029 1080 1021 1022 1032 1029 1048 在显著水平α = 0.05下检验这三种饲料对雏鸡增重是否有显著差别．解：假设H 0：a 1 = a 2 = a 3 = 0 vs H 1：a 1 , a 2 , a 3不全等于0，统计量),1(~r n r F MS MS f S f S F eAe e A A −−==，平方和显著水平α = 0.05，n = 24，r = 3，m = 8，右侧拒绝域W = { f ≥ f 0.95 (2, 21)} = { f ≥ 3.47}，试验数据计算表因子水平试验数据Y ijT i2i T∑=mj ijY 12A 1 1073 1009 1060 1001 10021012100910288194 67141636 8398024 A 2 1107 1092 990 1109 10901074112210018585 73702225 9230355 A 31093 1029 1080 1021 10221032102910488354 69789316 8728984总和 25133 210633177 26357363计算可得0833.96602513324121063317781112212=×−×=−=∑=T n T m S r i i A ，875.282152106331778126357363112112=×−=−=∑∑∑===r i i r i mj ije T m Y S ，方差分析表来源平方和自由度均方和F 比因子 9660.0833 2 4830.0417 3.5948 误差 28215.875 21 1343.6131 总和 37875.958323有F 比f = 3.5948 ∈ W ，故拒绝H 0 ，接受H 1 ，可以认为这三种饲料对雏鸡增重有显著差别，并且检验的p 值p = P {F ≥ 3.5948} = 1 − 0.9546 = 0.0454 < α = 0.05． 8.1.5参数估计在方差分析问题中，可对总均值µ ，误差的方差σ 2作参数估计．当检验结果为因子不显著时，各水平下指标的总体均值与总体方差都相同，可将所有水平的指标看作一个统一的总体，全部试验数据是来自正态总体Y ~ N (µ , σ 2 ) 的一个容量为n = rm 的样本，因此样本均值nT Y n Y r i m j ij ==∑∑==111，样本方差1)(111122−=−−=∑∑==n S Y Y n S T r i m j ij．这样总均值µ 和误差的方差σ 2的点估计分别为Y =µˆ，22S =∧σ，置信度为1 − α 的置信区间分别是 ])1([2/1nSn t Y −±∈−αµ，])1()1(,)1()1([22/222/122−−−−∈−n S n n S n ααχχσ．当检验结果为因子显著时，还可进一步对主效应a i 作参数估计．一．点估计由于试验数据Y ij , (i = 1, 2, …, r , j = 1, 2, …, m ) 相互独立且都服从正态分布N (µ + a i , σ 2 )，根据最大似然估计法，得到总均值µ ，误差的方差σ 2及主效应a i 的点估计．似然函数∏∏∏∏====⎪⎭⎪⎫⎪⎩⎪⎨⎧−−−==r i mj i ij r i m j ij r a y y p a a a L 11222112212)(exp π21)(),,,,,(σµσσµL ⎭⎬⎫⎩⎨⎧−−−=∑∑==ri mj iij na y 112222)(21exp )π2(1µσσ，取对数，得∑∑==−−−−−=r i mj i ija yn n L 11222)(21)ln(2π)2ln(2ln µσσ．令关于µ 的偏导数等于0，有⎟⎟⎠⎞⎜⎜⎝⎛−−=−⋅−−−=∂∂∑∑∑∑∑=====r i i r i mj ijri mj i ij a m n y a y L 11121121)1()(221ln µσµσµ0101112112=⎟⎟⎠⎞⎜⎜⎝⎛−=⎟⎟⎠⎞⎜⎜⎝⎛−−=∑∑∑∑====µσµσn y n y r i m j ij r i mj ij ，得y y n r i mj ij ==∑∑==111µ，故总均值µ 的最大似然估计为Y =µˆ．令关于a k 的偏导数等于0，有01)1()(221ln 1212=⎟⎟⎠⎞⎜⎜⎝⎛−−=−⋅−−−=∂∂∑∑==k mj kj mj k kj k ma m y a y a L µσµσ， k = 1, 2, …, r ，得µµ−=−=⋅=∑k mj kj k y y m a 11，故主效应a i 的最大似然估计为Y Y Y a i i i −=−=⋅⋅µˆˆ， i = 1, 2, …, r ，相应，第i 个水平下的总体均值µ i 的最大似然估计为⋅=+=i i i Y a ˆˆˆµµ．令关于σ 2的偏导数等于0，有0)(2112)(ln 112422=−−+⋅−=∂∂∑∑==r i mj i ija yn L µσσσ，得∑∑==−−=r i m j i ij a y n 1122)(1µσ，故误差的方差σ 2的最大似然估计为nS Y Y n e r i m j i ij M =−=∑∑==⋅∧1122)(1σ．由于E(S e ) = (n − r )σ 2，可知∧2Mσ不是σ 2的无偏估计，修偏得σ 2的无偏估计e eMS rn S =−=∧2σ．二．置信区间对总均值µ ，误差的方差σ 2及第i 个水平下的总体均值µ i 给出置信区间．第i 个水平下总体均值µ i 的点估计为∑=⋅==mj ij i i Y m Y 11ˆµ，因试验数据Y ij , (i = 1, 2, …, r , j = 1, 2, …, m )相互独立且都服从正态分布N(µ i , σ 2)，则有),(~2mN Y i i σµ⋅，即)1,0(~N mY ii σµ−⋅，但σ 未知，用r n S e −=σˆ替换．由于)(~22r n S e −χσ且S e 与⋅i Y 相互独立，则根据χ 2分布的定义可得 )(~ˆ)(2r n t mY r n S m Y i i eii −−=−−⋅⋅σµσσµ，故第i 个水平下总体均值µ i 的置信度为1 − α 的置信区间是]ˆ)([2/1mr n t Y i i σµα−±∈−⋅．总均值µ 的点估计为∑∑====r i mj ij Y n Y 111ˆµ，因数据Y ij , (i = 1, 2, …, r , j = 1, 2, …, m ) 相互独立且都服从正态分布N (µ i , σ 2 )，有Y 服从正态分布，且µµµ====∑∑∑∑∑=====r i i r i mj i r i m j ij n m n Y n Y 111111)E(1)E(，n n n n Y nY ri mj r i mj ij 222112211211)Var(1)Var(σσσ=⋅===∑∑∑∑====，得,(~2nN Y σµ，即)1,0(~N nY σµ−，但σ 未知，用r n S e −=σˆ替换．由于)(~22r n S e −χσ且S e 与Y 相互独立，则根据t 分布的定义可得 )(~ˆ)(2r n t nY r n S n Y e−−=−−σµσσµ，故总均值µ 的置信度为1 − α 的置信区间是ˆ)([2/1nr n t Y σµα−±∈−．误差的方差σ 2的点估计为r n S e −=∧2σ，且)(~22r n Se −χσ，故误差的方差σ 2的置信度为1 − α 的置信区间是⎥⎦⎤⎢⎢⎢⎣⎡−−−−=⎥⎦⎤⎢⎣⎡−−∈∧−∧−)()(,)()()(,)(22/222/1222/22/12r n r n r n r n r n S r n S e e ααααχσχσχχσ．例由前面的鸡饲料对鸡增重问题的数据给出总均值µ ，误差的方差σ 2及三个水平下总体均值µ1 , µ 2 , µ 3的点估计和置信区间（α = 0.05）．解：前面已检验知因子显著，则三个水平下总体均值µ1 , µ 2 , µ 3的点估计为25.102488194ˆ111====⋅m T Y µ， 125.107388585ˆ222====⋅m T Y µ，25.104488354ˆ333====⋅m T Y µ，总均值µ 的点估计为2083.10472425133ˆ====n T Y µ，误差的方差σ 2的点估计为6131.13432==−=∧e eMS rn S σ，置信度为0.95的置信区间是]2008.1051,2992.997[86131.13430796.225.1024[]ˆ)21([975.011=×±=±∈⋅m t Y σµ，]0758.1100,1742.1046[86131.13430796.2125.1073[]ˆ)21([975.022=×±=±∈⋅m t Y σµ，]2008.1071,2992.1017[]86131.13430796.225.1044[]ˆ)21([975.033=×±=±∈⋅mt Y σµ，]7684.1062,6482.1031[]246131.13430796.22083.1047[]ˆ)21([975.0=×±=±∈nt Y σµ，[]9608.2743,2861.7952829.10875.28215,4789.35875.28215)21(,)21(2025.02975.02=⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡∈χχσe e S S ． 8.1.6重复数不等的情形如果每个水平下试验次数不全相等，称为重复数不等的情形，其检验方法与在重复数相等的情形下类似，只是在对数据的表述和处理上有几点区别．一．数据设第i 个水平A i 下的重复数为m i ，所取得的样本为i im i i Y Y Y ,,,21L ，i = 1, 2, …, r ．显然重复数总数为n ，即m 1 + m 2 + … + m r = n ．二．总均值总均值µ 是各水平下总体均值µ i 的以频率nm i为权数的加权平均，即 ∑==+++=r i i i r r m n n m n m n m 122111µµµµµL ．三．主效应约束条件第i 个水平下主效应a i = µ i − µ ，则满足011=−=∑∑==µµn m a m ri iir i ii ．四．模型单因子方差分析在重复数不等的情形下，统计模型为⎪⎪⎩⎪⎪⎨⎧===++=∑=).,0(;0;,,2,1,,,2,1,21σεεµN a m m j r i a Y ij r i i i i ij i ij 相互独立，且都服从L L 检验H 0：a 1 = a 2 = … = a r = 0 vs H 1：a 1 , a 2 , …, a r 不全等于0．五．平方和的计算记∑==im j ij i Y T 1，∑=⋅==im j ij i i i i Y m m T Y 11，∑∑∑=====ri i ri m j ij T Y T i111，∑∑∑=⋅=====ri i i r i m j ij Y m n Y n n T Y i 11111，则各平方和的计算公式为n T Y Y n Y Y Y S ri m j ijri m j ijri m j ij T iii21122112112)(−=−=−=∑∑∑∑∑∑======， n T m T Y n Y m Y Y m Y Y S ri ii ri i i ri i i ri m j i A i21221212112)()(−=−=−=−=∑∑∑∑∑==⋅=⋅==⋅， ∑∑∑===−=−=ri ii ri m j ijA T e m T Y S S S i12112．例某食品公司对一种食品设计了四种新包装，为了考察哪种包装最受顾客欢迎，选了10个地段繁华程度相似、规模相近的商店做试验，其中两种包装各指定两个商店销售，另两种包装各指定三个商店销售．在试验期内各店货架排放的位置、空间都相同，营业员的促销方法也基本相同，经过一段时间，记录其销售量数据，见下表包装类型销售量数据A 1 12 18 A 2 14 12 13 A 3 19 17 21 A 4 24 30在显著水平α = 0.01下检验这四种包装对销售量是否有显著影响．解：假设H 0：a 1 = a 2 = a 3 = a 4 = 0 vs H 1：a 1 , a 2 , a 3 , a 4不全等于0，统计量),1(~r n r F MS MS f S f S F eAe e A A −−==，显著水平α = 0.01，n = 10，r = 4，右侧拒绝域W = { f ≥ f 0.99 (3, 6)} = { f ≥ 9.78}，销售量数据计算表计算可得258180101349812212=×−=−=∑=T n m T S ri ii A ，463498354412112=−=−=∑∑∑===ri i i ri mj ije m T Y S ，方差分析表来源平方和自由度均方和F 比因子 258 3 86 11.2174 误差 46 6 7.6667 总和 3049有F 比f = 11.2174 ∈ W ，故拒绝H 0 ，接受H 1 ，可以认为这四种包装对销售量有显著影响，并且检验的p 值p = P {F ≥ 11.2174} = 1 − 0.9929 = 0.0071 < α = 0.01．由于因子显著，则四个水平下总体均值µ1 , µ 2 , µ 3 , µ 4的点估计为15230ˆ1111====⋅m T Y µ， 13339ˆ2222====⋅m T Y µ， 19357ˆ3333====⋅m T Y µ， 27254ˆ4444====⋅m T Y µ，总均值µ 的点估计为1810180ˆ====n T Y µ，误差的方差σ 2的点估计为6667.72==−=∧e eMS rn S σ，置信度为0.99的置信区间是]2587.22,7413.7[]26667.77074.315[]ˆ)6([1995.011=×±=±∈⋅m t Y σµ，]9267.18,0733.7[]36667.77074.313[]ˆ)6([2995.022=×±=±∈⋅m t Y σµ，]9267.24,0733.13[]36667.77074.319[]ˆ)6([3995.033=×±=±∈⋅m t Y σµ，]2587.34,7413.19[]26667.77074.327[]ˆ)6([4995.044=×±=±∈⋅m t Y σµ，]2462.21,7538.14[106667.77074.318[]ˆ)6([995.0=×±=±∈nt Y σµ，[]0775.68,4801.26757.046,5476.1846)6(,)6(2005.02995.02=⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡∈χχσeeS S ．§8.2 多重比较上一节是将多个总体作为一个整体进行检验．如果检验结果是因子A 显著，则可以认为各水平下的均值µ i 不全相等，但却不能直接说明µ i 中哪些可以认为相等，哪些可以认为不等．这一节是对各个µ i 两两之间进行比较，对µ i − µ j ，也就是效应差a i − a j 作出估计、检验． 8.2.1效应差的置信区间效应差a i − a j = µ i − µ j 的点估计为⋅⋅−j i Y Y ．因Y ik ~ N (µ i , σ 2 ), (i = 1, 2, …, r , k = 1, 2, …, m i )，则),(~121i i m k ik i i m N Y m Y iσµ∑=⋅=，,(~121jj m k jkj j m N Ym Y jσµ∑=⋅=，且当i ≠ j 时，⋅i Y 与⋅j Y 相互独立，可得))11(,(~2σµµji j i j i m m N Y Y +−−⋅⋅，即)1,0(~11)()(N m m Y Y ji j i j i +−−−⋅⋅σµµ，但σ 未知，用r n S e −=σˆ替换．由于)(~22r n S e −χσ且S e 与⋅⋅j i Y Y ,相互独立，则根据t 分布的定义可得 )(~11ˆ)()()(11)()(2r n t m m Y Y r n S m m Y Y ji j i j i ej i j i j i −+−−−=−+−−−⋅⋅⋅⋅σµµσσµµ，故效应差a i − a j = µ i − µ j 的置信度为1 − α 的置信区间是]11ˆ)([2/1ji j i j i m m r n t Y Y +⋅−±−∈−−⋅⋅σµµα．例由前面的鸡饲料对鸡增重问题的数据给出各效应差µ i − µ j 的点估计和置信区间（α = 0.05）．解：因m 1 = m 2 = m 3 = 8，n = 24，r = 3，有25.102488194111===⋅m T Y ，125.107388585222===⋅m T Y ，25.104488354333===⋅m T Y ，则各效应差µ i − µ j 的点估计分别为875.48125.107325.10242121−=−=−=−⋅⋅∧Y Y µµ， 2025.104425.10243131−=−=−=−⋅⋅∧Y Y µµ， 875.2825.1044125.10733232=−=−=−⋅⋅∧Y Y µµ；因6553.3621875.28215ˆ==−=r n S e σ，有1142.385.06553.360796.211ˆ)21(975.0=××=+⋅j i m m t σ，则各效应差µ i − µ j 的置信度为0.95的置信区间分别是]7608.10,9892.86[]1142.38875.48[]8181ˆ)21([975.02121−−=±−=+⋅±−∈−⋅⋅σµµt Y Y ， ]1142.18,1142.58[]1142.3820[]8181ˆ)21([975.03131−=±−=+⋅±−∈−⋅⋅σµµt Y Y ， ]9892.66,2392.9[]1142.38875.28[]8181ˆ)21([975.03232−=±=+⋅±−∈−⋅⋅σµµt Y Y ．例由前面的食品包装对销售量影响问题的数据给出各效应差µ i − µ j 的点估计和置信区间（α = 0.01）．解：因m 1 = 2，m 2 = 3，m 3 = 3，m 4 = 2，n = 10，r = 4，有15230111===⋅m T Y ，13339222===⋅m T Y ，19357333===⋅m T Y ，27254444===⋅m T Y ，则各效应差µ i − µ j 的点估计分别为213152121=−=−=−⋅⋅∧Y Y µµ，419153131−=−=−=−⋅⋅∧Y Y µµ， 1227154141−=−=−=−⋅⋅∧Y Y µµ，619133232−=−=−=−⋅⋅∧Y Y µµ， 1427134242−=−=−=−⋅⋅∧Y Y µµ，827194343−=−=−=−⋅⋅∧Y Y µµ；因7689.2646ˆ==−=r n S e σ，有2653.107689.27074.3ˆ)6(995.0=×=⋅σt ，则各效应差µ i − µ j 的置信度为0.99的置信区间分别是]3709.11,3709.7[]9129.02653.102[]3121ˆ)6([995.02121−=×±=+⋅±−∈−⋅⋅σµµt Y Y ， ]3709.5,3709.13[]9129.02653.104[]3121ˆ)6([995.03131−=×±−=+⋅±−∈−⋅⋅σµµt Y Y ， ]7347.1,2653.22[]12653.1012[]2121ˆ)6([995.04141−−=×±−=+⋅±−∈−⋅⋅σµµt Y Y ， ]3816.2,3816.14[]8165.02653.106[]3131ˆ)6([995.03232−=×±−=+⋅±−∈−⋅⋅σµµt Y Y ， ]6291.4,3709.23[]9129.02653.1014[]2131ˆ)6([995.04242−−=×±−=+⋅±−∈−⋅⋅σµµt Y Y ， ]3709.1,3709.17[]9129.02653.108[]2131ˆ)6([995.04343−=×±−=+⋅±−∈−⋅⋅σµµt Y Y ．8.2.2 多重比较问题对各个µ i 两两之间进行比较，也就是检验任意两个水平A i 与A j 下的总体均值是否相等，即检验假设j i ij H µµ=:0 vs j i ij H µµ≠:1， i , j = 1, 2, …, r ．对于每一个假设ijH 0可以采取上一章两个正态总体的均值比较方法进行检验，但这里需要同时检验2)1(2−=r r C r 个这种假设．设需要同时检验k 个假设k i H i ,,2,1,0L =，每一个假设的显著水平是α ，即在iH 0成立的条件下，接受i H 0的概率为1 − α ，但在所有k 个假设i H 0都成立的条件下，要同时接受所有假设iH 0的概率就可能远小于1 − α ．事实上，此时对每一个假设i H 0，拒绝i H 0的概率为α ，而对所有k 个假设k i H i ,,2,1,0L =，至少拒绝其中一个i H 0的概率最大时可能达到k α ，即同时接受所有假设i H 0的概率就可能只有1 − k α ．可见，需要同时检验多个假设时，一般不应逐个检验每一个假设，而是采用多重比较方法同时检验多个假设．多重比较方法，就是针对所有假设，构造一个统一的拒绝域，再逐个进行比较．这里，需要检验假设j i ijH µµ=:0 vs j i ij H µµ≠:1， 1≤ i < j ≤ r ，在ij H 0成立的条件下，⋅i Y 与⋅j Y 不应相差太大．对每一个假设ijH 0，拒绝域可以取为}|{|ij j i ij c Y Y W ≥−=⋅⋅，其中c ij 是常数．对所有的假设ijH 0，统一的拒绝域取为U U rj i ij j i rj i ijc Y YWW ≤<≤⋅⋅≤<≤≥−==11}|{|．分成重复数相等与不等两种场合进行讨论． 8.2.3重复数相等场合的T 法重复数相等时，各水平是平等的，由对称性，可以要求所有的c ij 相等，记为c ，即统一的拒绝域为}min max {}||max {}|{|1111c Y Y c Y Y c Y YW i ri i ri j i rj i rj i j i ≥−=≥−=≥−=⋅≤≤⋅≤≤⋅⋅≤<≤≤<≤⋅⋅U ．因Y ij , (i = 1, 2, …, r , j = 1, 2, …, m ) 相互独立且都服从正态分布N (µ i , σ 2)，有,(~2mN Y i i σµ⋅．当所有的假设ijH 0都成立时，即µ 1 = µ 2 = … = µ r = µ ，有,(~2mN Y i σµ⋅，则)1,0(~N mY i σµ−⋅．但σ 未知，用r n S e−=σˆ替换．由于)(~22r n S e −χσ且S e 与⋅i Y 相互独立，则根据t 分布的定义可得 )()(~ˆ)(2e i ei f t r n t mY r n S m Y =−−=−−⋅⋅σµσσµ．统一的拒绝域W 的形式可改写为⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≥−−−=≥−=⋅≤≤⋅≤≤⋅≤≤⋅≤≤m c m Y m Y c Y Y W i r i i r i i r i i r i σσµσµˆˆmin ˆmax }min max {1111，其中mY Y mY mY Q i ri i ri i ri i ri σσµσµˆmin max ˆminˆmax1111⋅≤≤⋅≤≤⋅≤≤⋅≤≤−=−−−=是从分布为t ( f e )的总体中抽取容量为r 的样本所得的最大与最小顺序统计量之差（极差），称之为t 化极差统计量，其分布记为q (r , f e )．显然，t 化极差统计量Q 的分布q (r , f e ) 只与水平个数r 以及t 分布的自由度f e 有关，而与参数µ , σ 2及重复数m 无关．分布q (r , f e )的准确形式比较复杂，通常采用随机模拟方法得到其分位数q 1 − α (r , f e )．对于给定的容量r 及自由度f e ，随机模拟方法是（1）随机生成r 个标准正态分布N (0, 1) 随机数x 1 , x 2 , …, x r ，将这r 个随机数按由小到大的顺序排列，得到其最小随机数x (1) 和最大随机数x (r ) ；（2）随机生成1个自由度为f e 的χ 2分布χ 2 ( f e ) 随机数y ；（3）计算er f y x x q )1()(−=；（4）重复（1）至（3）步N 次，得到t 化极差统计量Q 的N 个观测值，只要N 非常大（如10 4或10 5次），就可得q (r , f e )的各种分位数q 1 − α (r , f e )的近似值．当显著水平为α 时，拒绝域{}),(ˆ1ef r q Q m c Q W ασ−≥=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≥=，有m c f r q e σαˆ),(1=−，可得 mf r q c e σαˆ),(1⋅=−，再逐个将||⋅⋅−j i Y Y 与c 比较，得出每一对µ i 与µ j 是否有显著差异的结论．步骤：假设j i ijH µµ=:0 vs j i ij H µµ≠:1， 1≤ i < j ≤ r ，统计量mY Y mY mY Q i ri i ri i ri i ri σσµσµˆmin max ˆminˆmax1111⋅≤≤⋅≤≤⋅≤≤⋅≤≤−=−−−=，显著水平α ，右侧拒绝域{}),(ˆ1e f r q Q m c Q W ασ−≥=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≥=，计算mf r q c e σαˆ),(1⋅=−，逐个将||⋅⋅−j i Y Y 与c 比较，得出结论．例由前面的鸡饲料对鸡增重影响问题的数据对各因子作多重比较（α = 0.05）．解：假设j i ijH µµ=:0 vs j i ij H µµ≠:1， 1≤ i < j ≤ 3，统计量mY Y mY mY Q i ri i ri i ri i ri σσµσµˆmin max ˆminˆmax1111⋅≤≤⋅≤≤⋅≤≤⋅≤≤−=−−−=，显著水平α = 0.05，r = 3，f e = n − r = 21，右侧拒绝域W = {Q ≥ q 0.95 (3, 21)} = {Q ≥ 3.57}，因m = 8，6553.3621875.28215ˆ==−=r n S e σ，有2658.4686553.3657.3=×=c ，由于c Y Y >=−=−⋅⋅875.48|125.107325.1024|||21，故µ 1与µ 2有显著差异；c Y Y <=−=−⋅⋅20|25.104425.1024|||31，故µ 1与µ 3没有显著差异； c Y Y <=−=−⋅⋅875.28|25.1044125.1073|||32，故µ 2与µ 3没有显著差异；8.2.4重复数不等场合的S 法重复数不等时，因)1,0(~11)()(N m m Y Y ji j i j i +−−−⋅⋅σµµ，但σ 未知，用r n S e−=σˆ替换．由于)(~22r n S e −χσ且S e 与⋅⋅j i Y Y ,相互独立，则根据t 分布的定义可得 )()(~11ˆ)()(e ji j i j i f t r n t m m Y Y =−+−−−⋅⋅σµµ，当所有的假设ijH 0都成立时，即µ 1 = µ 2 = … = µ r = µ ，有)(~11ˆe ji j i ij f t m m Y Y T +−=⋅⋅σ，得),1(~11ˆ)(222e j i j i ijij f F m m Y Y T F ⎟⎟⎠⎞⎜⎜⎝⎛+−==⋅⋅σ，从而统一的拒绝域可以取为U U r j i ji j i r j i ji j i c m m Y Y m m c Y Y W ≤<≤⋅⋅≤<≤⋅⋅≥+−=+≥−=11}11||{}11|{| }ˆmax {}ˆ11ˆ)(max {}ˆ11ˆ||max {221222211σσσσσc F c m m Y Y cm m Y Y ij r j i j i j i r j i ji j i r j i ≥=≥⎟⎟⎠⎞⎜⎜⎝⎛+−=≥+−=≤<≤⋅⋅≤<≤⋅⋅≤<≤，可以证明，),1(~1max 1e ij rj i f r F r F −−≤<≤&．当显著水平为α 时，拒绝域{}),1(ˆ)1(122e f r f F r c F W −≥=⎭⎬⎫⎩⎨⎧−≥=−ασ，有221ˆ)1(),1(σα−=−−r c f r f e ，可得),1()1(ˆ1e f r f r c −−=−ασ，因此⎟⎟⎠⎞⎜⎜⎝⎛+−−=+=−j i e ji ij m m f r f r m m c c 11),1()1(ˆ111ασ，再逐个将||⋅⋅−j i Y Y 与ji ij m m cc 11+=比较，得出每一对µ i 与µ j 是否有显著差异的结论．步骤：假设j i ijH µµ=:0 vs j i ij H µµ≠:1， 1≤ i < j ≤ r ，统计量),1(~11ˆ)1()(max1max 2211e j i j i rj i ijrj i f r F m m r Y Y r F F −⎟⎟⎠⎞⎜⎜⎝⎛+−−=−=⋅⋅≤<≤≤<≤&σ，显著水平α ，右侧拒绝域{}),1(ˆ)1(122e f r f F r c F W −≥=⎭⎬⎫⎩⎨⎧−≥=−ασ，计算⎟⎟⎠⎞⎜⎜⎝⎛+−−=+=−j i e ji ij m m f r f r m m cc 11),1()1(ˆ111ασ，逐个将||⋅⋅−j i Y Y 与c ij 比较，得出结论．例由前面的食品包装对销售量影响问题的数据对各因子作多重比较（α = 0.01）．解：假设j i ijH µµ=:0 vs j i ij H µµ≠:1， 1≤ i < j ≤ 4，统计量),1(~11ˆ)1()(max)1(max 224141e j i j i j i ij j i f r F m m r Y Y r F F −⎟⎟⎠⎞⎜⎜⎝⎛+−−=−=⋅⋅≤<≤≤<≤&σ，显著水平α = 0.01，r = 4，f e = n − r = 6，右侧拒绝域W = {F ≥ f 0.99 (3, 6)} = {F ≥ 9.78}，因m 1 = m 4 = 2，m 2 = m 3 = 3，7689.2646ˆ==−=r n S e σ，有9981.1478.937689.2=××=c ，则6914.13312134241312=+====cc c c c ，9981.14212114=+=c c ，2459.12313123=+=c c ，由于12212|1315|||c Y Y <=−=−⋅⋅，故µ 1与µ 2没有显著差异；13314|1915|||c Y Y <=−=−⋅⋅，故µ 1与µ 3没有显著差异； 144112|2715|||c Y Y <=−=−⋅⋅，故µ 1与µ 4没有显著差异； 23326|1913|||c Y Y <=−=−⋅⋅，故µ 2与µ 3没有显著差异； 244214|2713|||c Y Y >=−=−⋅⋅，故µ 2与µ 4有显著差异； 34438|2719|||c Y Y <=−=−⋅⋅，故µ 3与µ 4没有显著差异．§8.3 方差齐性检验在单因子方差分析统计模型中，总是假设各个水平下的总体方差都相等，即222221σσσσ====r L ，称之为方差齐性．但方差齐性不一定自然成立，需要对其进行检验，检验的原假设与备择假设为H 0：22221r σσσ===L vs H 1：22221,,,r σσσL 不全相等，称为方差齐性检验．各水平下的总体方差2i σ分别是以该水平下的样本方差2i S 作为点估计，以由22221,,,r S S S L 构成的函数作为检验的统计量．分成重复数相等与不等两种场合进行讨论． 8.3.1重复数相等场合的Hartley 检验法重复数相等时，样本方差⎥⎦⎤⎢⎣⎡−−=⎥⎦⎤⎢⎣⎡−−=−−=∑∑∑=⋅==⋅m T Y m Y m Y m Y Y m S i m j ij i m j ij m j i ij i2122121221111)(11，i = 1, 2, …, r ，各水平是平等的，以r 个水平下样本方差),,2,1(,2r i S i L =的最大值与最小值之比作为检验的统计量H ，即},,,min{},,,max{2222122221r r S S S S S S H L L =．在方差齐性成立的条件下，统计量H 的分布只与水平个数r 及样本方差2i S 的自由度f = m − 1有关，记为H (r , f )．分布H (r , f )的准确形式比较复杂，通常采用随机模拟方法得到其分位数H 1 − α (r , f )．显然有H ≥ 1，且H 的观测值越接近1，方差齐性越应该成立，因此拒绝域取为W = {H ≥ H 1 − α (r , f )}．步骤：假设H 0：22221r σσσ===L vs H 1：22221,,,r σσσL 不全相等，统计量},,,min{},,,max{2222122221rr S S S S S S H L L =，显著水平α ，右侧拒绝域W = {H ≥ H 1 − α (r , f )}，计算H ，并作出判断．这称之为Hartley 检验法．例由前面的鸡饲料对鸡增重影响问题的数据采用Hartley 检验法进行方差齐性检验（α = 0.05）．解：假设H 0：232221σσσ== vs H 1：232221,,σσσ不全相等，统计量},,min{},,max{232221232221S S S S S S H =，显著水平α = 0.05，且r = 3，f = m − 1，右侧拒绝域W = {H ≥ H 0.95 (3, 7)} = {H ≥ 6.94}，根据试验数据计算表，可得T 1 = 8194，T 2 = 8585，T 3 = 8354，8398024121=∑=mj j Y ，9230355122=∑=mj jY，8728984123=∑=mj j Y ，则9286.759)881948398024(71221=−=S ，9821.2510885859230355(71222=−=S ，9286.759)883548728984(71223=−=S ，可得W H ∉==3042.39286.7599821.2510，故拒绝H 0 ，接受H 1 ，可以认为三个水平下的总体方差满足方差齐性．8.3.2 重复数不等场合大样本情形的Bartlett 检验法重复数不等时，样本方差⎥⎦⎤⎢⎣⎡−−=⎥⎦⎤⎢⎣⎡−−=−−=∑∑∑=⋅==⋅i i m j ij i i i m j ij i m j i ij i im T Y m Y m Y m Y Y m S i i i 2122121221111)(11，i = 1, 2, …, r ，记i i m j ijm j i ij i m T Y Y Y Q ii21212)(−=−=∑∑==⋅为第i 个水平下的偏差平方和，f i = m i − 1为其自由度，有i i i f Q S =2，且e r i m j i ijr i i S Y YQ i=−=∑∑∑==⋅=1121)(，e ri ir i i f r n r mf =−=−=∑∑==11，则组内偏差均方和∑∑∑=======ri i ei ri ii e ri ie e e e Sf f S f f Q f f S MS 1212111，即MS e 等于样本方差22221,,,r S S S L 以各自自由度所占比例为权数的加权算术平均，而相应的加权几何平均记为GMS e ，即∏==ri f f i e eiS GMS 12)(．以MS e 与GMS e 之商的一个函数作为检验统计量．可以证明，大样本情形，在方差齐性成立的条件下，)1(~])ln()ln([1ln 212−−==∑=r S f MS f C GMS MS C f B ri i i e e e e e χ&，其中常数⎟⎟⎠⎞⎜⎜⎝⎛−−+=∑=e r i i f f r C 11)1(3111．由于算术平均必大于等于几何平均，即MS e ≥ GMS e ，当且仅当所有2i S 都相等时等号成立，即B 的观测值越小，方差齐性越应该成立，因此拒绝域取为)}1({21−≥=−r B W αχ．。

[数学]方差分析与回归分析

2019/1/2 15
方差分析的基本思想：
对试验数据所显示的差异进行分解，区分出组间误差和组内误差，利用数理统计的相关原理建立适当的统计量，将组间误差和组内误差进行比较，如果组间误差比组内误差大得多，就认为试验数据的差异主要是由因素的水平不同造成的，否则认为试验数据的差异主要是由组内误差造成的。
2. 8
2. 15
2. 11
2019/1/2
59
证明略
88
2019/1/2
60
88
2019/1/2
61
2. 2
2. 16
2019/1/2
62
( 2. 17)
2019/1/2
63
2. 17
2019/1/2
64
2019/1/2
65
2. 9
2019/1/2
66
2019/1/2
67
2. 2
5
8
2019/1/2
6
8
2019/1/2
7
在每一水平下，所研究对象的全体看成一个总体
2019/1/2 8
实质是判断这些样本是否来自同一个总体
8
2019/1/2
9
8
2019/1/2
10
方差分析的基本假定
2019/1/2
11
2019/1/2
12
2019/1/2
13
2019/1/2
2019/1/2
16
平方和分解
2019/1/2
17
2019/1/2
18
2019/1/2
19
2019/1/2
20
2019/1/2
21
2019/1/2

回归分析方差分析

回归分析方差分析回归分析和方差分析是统计学中两种重要的数据分析方法。

回归分析用于研究两个或多个变量之间的关系，并预测一个变量对另一个或多个变量的影响。

方差分析则用于比较三个或更多个组或处理之间的均值差异。

本文将分别介绍回归分析和方差分析的基本原理和应用。

回归分析是一种通过建立数学模型来研究两个或多个变量之间关系的方法。

回归模型用来预测一个因变量（响应变量）对一个或多个自变量的依赖关系。

回归分析可以分为简单线性回归和多元回归。

简单线性回归是一种建立在一个自变量和一个因变量之间的关系上的模型。

多元回归则是一种包含多个自变量和一个因变量之间关系的模型。

回归分析的基本原理是通过最小二乘法来估计模型的参数。

最小二乘法的目标是找到最佳拟合线，使得观测数据点与拟合线之间的误差最小。

回归分析可以用来评估变量之间的关系强度和方向。

相关系数用来衡量变量之间的线性关系强度，其取值范围在-1到1之间。

回归方程用来预测因变量的值，可以根据自变量的值来计算。

回归分析的应用广泛，包括但不限于以下几个领域。

在经济学中，回归分析可以用来研究经济变量之间的关系，如GDP和失业率之间的关系。

在医学研究中，回归分析可以用来探索疾病与风险因素之间的关系，如吸烟与肺癌之间的关系。

在市场营销中，回归分析可以用来预测销售额与广告支出之间的关系。

在社会科学中，回归分析可以用来研究人口统计学变量与社会行为之间的关系。

方差分析是一种用来比较三个或更多个组或处理之间的均值差异的方法。

方差分析的基本原理是通过分解总方差为组间方差和组内方差来进行检验。

组间方差衡量了不同组之间的均值差异，而组内方差则衡量了同一组内的个体之间的差异。

方差分析通常用来比较不同处理或实验条件下的均值之间是否存在显著差异。

方差分析的假设是每个组内个体之间的差异是相同的，只有组间的差异是不同的。

方差分析可以用来比较多个组之间的均值差异，如不同药物治疗组的疗效比较，或不同教学方法对学生成绩的影响。

方差分析及回归分析ppt60页课件

单因素试验的方差分析
设因素有S个水平，在水平Aj (j=1,2,…,s)下，进行nj (nj≥2)次独立试验，结果如下：
水平观察结果
A1
A2
…
As
X11 X21 …
X11 X21 …
… … …
X11 X21 …
样本总和样本均值总体均值
T.1 X.1 μ 1
T.2 X.2 μ 2
… … …
160
180
60
80
100
40
设Y关于x的回归函数为μ(x)。利用样本来估计μ(x)的问题称为求Y关于x的回归问题。若μ(x)是线性函数μ(x)=a+bx，此时的估计问题称为求一元线性回归问题。一元线性回归模型：设Y~N(a+bx, σ2 )其中a,b, σ2是未知参数，记 ε = Y-（a+bx），则 Y= a+bx + ε, ε ~N(0, σ2 ) （1）称上式为一元线性回归模型。称a+bx为x的线性函数，而ε ~N(0, σ2 )是随机误差。
SE称为误差平方和， SA表示Aj水平下的样本均值与数据总平均的差异，叫做效应平方和，他是由水平Aj的效应的差异以及随机误差引起的。
（1，8）
则得 ST=SE+SA ，
（1，9）
（1，10）
（三） SE，SA的统计特性 1、SE的统计特性
由于是总体的nj-1倍，所以由于独立，（1，11）中各式独立，根据分布的可加性，得
（1，14）
（1，15）
可以证明SE，SA的是相互独立的，且H0当为真时（四）假设检验问题的拒绝域由（1，15）式，当H0为真时所以SA /(s-1)是σ2的无偏估计,而当当H1为真时，这时而由于

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第八章方差分析与回归分析一、教材说明本章内容包括：方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容.1、教学目的与教学要求(1)了解方差分析的统计模型，掌握平方和的分解，熟悉检验方法和参数估计，会解决简单的实际问题.（2）了解效应差的置信区间的求法，了解多重比较问题，掌握重复数相等与不相等场合的方法，会解决简单的实际问题.（3）熟练掌握Hartley 检验，Bartlett 检验以及修正的Bartlett 检验三种检验方法，会解决简单的实际问题.（4）理解变量间的两类关系，认识一元线性和非线性回归模型，熟悉回归系数的估计方法，熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析，会解决简单的实际问题.2、本章的重点与难点本章的重点是平方和的分解，检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握，回归系数的估计方法，回归方程的显著性检验，难点是检验方法和参数估计，重复数相等与不相等场合的方法. 实际问题的检验，回归方程的显著性检验.二、教学内容本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容.§ 方差分析教学目的：了解方差分析的统计模型，掌握平方和的分解，熟悉检验方法和参数估计,会解决简单的实际问题.教学重点：平方和的分解，检验方法和参数估计教学难点：检验方法和参数估计教学内容：本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形.问题的提出在实际工作中经常会遇到多个总体均值的比较问题，处理这类问题通常采用方差分析方法.例单因子方差分析的统计模型在例中，我们只考察一个因子，称为单因子试验.记因子为A ，设其有r 个水平，记为1r A ,,A ，在每一水平下考察的指标可看做一个总体，故有r 个总体，假定（1）每一总体均为正态总体，记为2i i N(,)μσ，i 1,2,,r =；（2）各总体方差相同，即222212r σσσσ====（3）每一总体中抽取的样本相互独立，即诸数据ij y 都相互独立在这三个基本假定下，要检验的假设是012112::,,,rr H H μμμμμμ===↔⋯不全相等（）如果0H 成立，因子A 的r 个水平均值相同，称因子A 的r 个水平间没有显著差异，简称因子A 不显著；反之，若0H 不成立，因子A 的r 个水平均值不全相同，称因子A 的r 个水平间有显著差异，简称因子A 显著.在每一水平下各作m 次独立重复试验，若记第i 个水平下第j 次重复的实验结果为ij y ，得到r m ⨯个实验结果：ij y ,=1,2,,=1,2,,.i r j m在水平A i 下的实验结果ij y 与该水平下的均值i μ的差距ij ij =y -i εμ称为随机误差.于是有ij ij y =+i εμ，（）该式称为实验结果ij y 的数据结构式.把三个假定用于数据结构式就得到单因子方差分析的统计模型：ij ij 2ij y =+,=1,2,,=1,2,,;(0,)i i r j m N εμεσ⎧⎪⎨⎪⎩诸相互独立，且都服从（）称诸i μ的平均1=111=(++)=rr i i rr μμμμ∑为总均值，第i 水平下均值i μ与总均值的差=-i i a μμ称为因子A 的第i 水平的主效应，简称为A i 的主效应.则有=1=0,=+.ri i i i a a μμ∑统计模型（）可改写为ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i r j m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立，且都服从假设（）可改写为012112:=0:,,,0r r H a a a H a a a ===↔⋯不全为.平方和分解一实验数据在单因子方差分析中可将实验数据列成如下表格形式因子水平试验数据和平均1A 11y 12y 1m y 1T 1y 2A 21y 22y 2m y 2T 2yr A r1y r2y rm yr T y r合计 T y 二组内偏差与组间偏差ij ij y -=(y -)+(-)i i y y y y ，记=1i=1i=1=1111=,==m r r mi ij i ij j j m r n εεεεε∑∑∑∑，ij y -i y 称为组内偏差，-i y y 称为组间偏差.三偏差平方和及其自由度在统计学中，把k 个数据1,,k y y 分别对其均值1=(++)/k y y y k 的偏差平方和2=1=(-)ki i Q y y ∑称为k 个数据的偏差平方和，简称平方和.由于=1(-)=0kii y y ∑，说明在Q 中独立的偏差只有-1k 个，称为该平方和的自由度，记为f ，=-1.Q f k四总平方和分解公式各ij y 间总的差异大小可用总偏差平方和T S 表示为211(),=-1r mT ij T i j S y y f n ===-∑∑. （）仅由随机误差引起的数据间差异可用组内偏差平方和，也称误差偏差平方和，记为e S ，211(),=r(m-1)=n-r.r me ij e i i j S y yf ===-∑∑ （）由效应不同引起的数据差异可用组间偏差平方和表示，也称为因子A 的偏差平方和，记为A S ，21(),=-1.rA A ii S m yy f r ==-∑ （）定理在上述符号下，总平方和T S 可分解为因子平方和.A S 与误差平方和e S 之和，其自由度也有相应分解公式：S =,=+.T A e T A e S S f f f + （）称为总平方和分解式.8．检验方法为了度量一组数据的离散程度，称/Q MS Q f =为均方和.由均方和的概念，得到/A A A MS S f =，/e e e MS S f =，用/A e F MS MS =作为检验的统计量，为给出检验拒绝域，需要如下定理：定理在单因子方差分析模型及前述符号下，有（1）22~-),es n r χσ（从而2()=(-)e E S n r σ(2) 22=1()=(-1)+rA ii E S r maσ∑,若0H 成立，则有22~(1)AS r χσ-（3）A S 与e S 相互独立. 由定理知/(,)A eA e F MS MS F f f = ，从而可得检验的拒绝域为1{(,)}A e W F F f f α-=≥.将上述结果列成表格，称为方差分析表来源平方和自由度均方和 F 比因子 A S 1A f r =- /A A A MS S f = /A e F MS MS = 误差 e S -e f n r = /e e e MS S f = 总和 T S 1T f n =-若1(,)A e F F f f α->，则可以认为因子A 显著，即诸正态均值间有显著差异；若1<(,)A e F F f f α-，则说明因子A 不显著，即保留原假设0H . 常用偏差平方和的计算公式：2211rmT ij i j T S y n ===-∑∑2211r A i i T S T m n ==-∑ e T AS S S =-例参数估计在检验结果为显著时，可进一步求出总均值μ，各主效应i a 和误差方差2σ的估计. 一点估计总均值μ的估计为ˆy μ=；各水平均值i μ的估计ˆ,1,2,,i i y i r μ==；主效应i a 的估计ˆ,1,2,,i i ay y i r =-=误差方差2σ的估计2ˆ/e e e MS S f σ== 二置信区间由定理知 222~N(,/m),~),ei i e s y μσχσ（f 且两者独立，故(-~t ),/i i e e em y f S f （由此给出A i 的水平均值i μ的1α-的置信区间是1/2ˆ()/i e y t f m ασ-±例单因子试验的数据分析可以知道如下三个结果因子A 是否显著试验误差方差2σ的估计诸水平均值i μ的点估计与区间估计（此项在因子A 不显著时无需进行）重复数不等情形1. 数据设因子A 有r 个水平1r A ,,A ，并且第r 个水平i A 下重复进行i m 次试验，可得如下数据：因子水平重复数试验数据和平均1A 1m 11y 12y 11m y 1T 1y 2A 2m 21y 22y 22m y 2T 2yr A r m r1y r2y r rm y rT r y合计 nTy2. 基本假定、平方和分解、方差分析和判断准则都和前面一样，只是因子A 的平方和A S 的计算公式略有不同：记1ri i n m ==∑，则221ri A i iT T S m n ==-∑ 3. 数据结构式及参数估计式基本同前，需要注意下面两点：（1）总均值11ri i i m n μμ==∑；（2）主效应约束条件为10ri ii m a==∑类似于有ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i i r j m m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立，且都服从 4 各平方和的计算记1,=im i i ij i j i T T y y m ==∑，=11,=im r ij i j TT y y n ==∑∑则2211,=-1,im rT ij T i j T S y f n n ===-∑∑221,=-1,ri A A i iT T S f r m n ==-∑,=-e T A e S S S f n r =-.例略§ 多重比较教学目的：了解效应差的置信区间的求法，了解多重比较问题，掌握重复数相等与不相等场合的方法，能用R 软件来进行多重比较，会解决简单的实际问题。

教学重点：重复数相等与不相等场合的方法. 教学难点：重复数相等与不相等场合的方法.教学内容:本节内容包括效应差的置信区间,多重比较问题,重复数相等场合的T 法,重复数不等场合的S 法.效应差的置信区间如果方差分析的结果因子A 显著,则认为因子A 的r 个水平的效应不全相同,但就指定的一对水平i A 和j A ,可通过求-i j μμ的区间估计来进行比较,方法如下:由于 211-~(-,(+))i j i j i jy y N m m μμσ⋅⋅,又由定理知22~()e e S f χσ,且两者独立,故(-)-(-)()11(+)e ei j ey y t f S m m f μμ,由此给出-i j μμ的置信水平为1-α的置信区间为^^1-1-221111[--(+)(),-+(+)()i j e i j e i j i j y y t f y y t f m m m m αα⋅⋅⋅⋅, 2^=e e Sf σ是2σ的无偏估计.例略注给出的置信区间与第六章中两样本的t 区间基本一致,区别在于这里2σ的估计使用了全部样本而不仅仅是i A ,j A 两个水平下的观测值.多重比较问题对每一组(,)i j 给出的区间置信水平都是1-α,但对于多个这样的区间,要求其同时成立,其联合置信水平就不再是1-α.例如,设1,,k E E 是k 个随机事件,且有(E )=1-,=1,,i P i k α,则其同时发生的概率=1(E )=1-k n i i P α,即它们同时发生的概率可能比1-α小很多,为了解决这个问题,常采用多重比较法.在方差分析中,如果经过检验拒绝原假设,表明因子A 是显著的,即r 个水平对应的水平均值不全相等,此时,我们还需要进一步确认哪些水平均值间确有差异, 哪些水平均值间无显著差异.在(>2)r r 个水平均值中同时比较任意两个水平均值间有无明显差异的问题称为多重比较,多重比较即要以显著水平α同时检验如下(-1)/2r r 个假设:0:=,1<ij i j H i j r μμ≤≤. 关于假设的拒绝域应有如下形式:1<={-}i j ij i j rW y y c ⋅⋅≤≤≥诸临界值应在成立时由(W)=P α确定.下面介绍重复数相等和不等时临界值确定的方法.重复数相等场合的T 法在重复数相等时,由对称性可要求诸ij c 相等,记为c ,记2^=eeS f σ,则由条件可得^-~()i ie y tf mμσ⋅,于是当成立时, 1===r μμμ,故有^^^(-)(-)(W)=P(max -min )j i i i ijy y cP mmmμμσσσ⋅⋅≥,这里^^(-)(-)q(r,f )=max -min j i i i e ijy y mmμμσσ⋅⋅一般称为t 化极差统计量, q(r,f )e 的分布可由随机模拟方法得到, q(r,f )e 的1-α分位数1-q (r,f)α可查表.重复数相同时的多重比较步骤如下:对给定的显著性水平α,差多重比较的分位数1-q (r,f)α表,计算^1-c=q (r,f)/m ασ,比较诸-i j y y ⋅⋅与c 的大小,若-i j y y c ⋅⋅≥则认为水平i A ,j A ,有显著差异,反之则认为i A ,j A ,间明显差别.这一方法称为T 法.例略重复数不等场合的S 法在重复数不等时,仍沿用上面的记号,有^(-)-(-)()11+e i jy y t f m m μμσ,在假设成立时, 1===r μμμ,于是有^-()11+ij e i jy y t t f m m σ或22^(-))11+ij e i jy y F f m m σ要求11=+ij i jc cm m 于是有2^1<(W)=P(max F ()i j r ij cP σ≤≤≥由(W)=P α推出2^1-()=(-1)(-1,)e c r F r f ασ,即2^1-11=(-1)(-1,)(+)ij e i j c r F r f m m ασ例略§ 方差齐性检验教学目的：熟练掌握Hartley 检验，Bartlett 检验以及修正的Bartlett 检验三种检验方法，会解决简单的实际问题。

第八章方差分析与回归分析

合集下载

方差分析与回归分析

一元非线性回归分析

方差分析与回归分析

方差分析与回归分析

方差分析与回归

方差分析和回归分析

概率论课件_高教版_第八章_方差分析与回归分析

方差分析回归分析

第八章方差分析与回归分析

方差分析与回归分析

第八章方差分析与回归分析（1）

方差分析与回归分析

方差分析与回归分析

概率论与数理统计(茆诗松)第二版课后第八章习题参考答案

[数学]方差分析与回归分析

回归分析方差分析

方差分析及回归分析ppt60页课件

文档推荐

最新文档

第八章方差分析与回归分析

合集下载

方差分析与回归分析

一元非线性回归分析

方差分析与回归分析

方差分析与回归分析

方差分析与回归

方差分析和回归分析

概率论课件_高教版_第八章_方差分析与回归分析

方差分析回归分析

第八章 方差分析与回归分析

方差分析与回归分析

第八章方差分析与回归分析（1）

方差分析与回归分析

方差分析与回归分析

概率论与数理统计(茆诗松)第二版课后第八章习题参考答案

[数学]方差分析与回归分析

回归分析方差分析

方差分析及回归分析ppt60页课件

文档推荐

最新文档

第八章方差分析与回归分析