高中数学:第八章 方差分析与回归分析
- 格式:docx
- 大小:391.23 KB
- 文档页数:12
方差分析与回归分析在统计学中,方差分析(ANOVA)和回归分析(Regression Analysis)都是常见的统计分析方法。
它们广泛应用于数据分析和实证研究中,有助于揭示变量之间的关系和影响。
本文将对方差分析和回归分析进行介绍和比较,让读者更好地理解它们的应用和区别。
一、方差分析方差分析是一种统计方法,用于比较两个或更多组别的均值是否存在显著差异。
它通过计算组内变异和组间变异的比值来判断不同组别间的差异是否具有统计显著性。
在方差分析中,通常有三种不同的情形:单因素方差分析、双因素方差分析和多因素方差分析。
单因素方差分析适用于只有一个自变量的情况。
例如,我们想要比较不同教育水平对收入的影响,可以将教育水平作为自变量分为高中、本科和研究生三个组别,然后进行方差分析来检验组别之间的收入差异是否显著。
双因素方差分析适用于有两个自变量的情况。
例如,我们想要比较不同教育水平和不同工作经验对收入的影响,可以将教育水平和工作经验作为自变量,进行方差分析来研究其对收入的影响程度和相互作用效应。
多因素方差分析适用于有多个自变量的情况。
例如,我们想要比较不同教育水平、工作经验和职位对收入的影响,可以将教育水平、工作经验和职位作为自变量,进行方差分析来探究它们对收入的联合影响。
方差分析的基本原理是计算组内变异和组间变异之间的比值,即F 值。
通过与临界F值比较,可以确定差异是否显著。
方差分析的结果通常会报告组间平均差异的显著性水平,以及可能存在的交互作用。
二、回归分析回归分析是一种统计方法,用于研究自变量与因变量之间的关系。
它通过建立一个数学模型来描述自变量对因变量的影响程度和方向。
回归分析分为简单线性回归和多元线性回归两种类型。
简单线性回归适用于只有一个自变量和一个因变量的情况。
例如,我们想要研究体重与身高之间的关系,可以将身高作为自变量、体重作为因变量,通过拟合一条直线来描述二者之间的关系。
多元线性回归适用于有多个自变量和一个因变量的情况。
方差分析和回归分析方差分析和回归分析是统计学中常用的两种数据分析方法。
它们分别用于比较多个样本之间的差异以及建立变量之间的函数关系。
本文将对方差分析和回归分析进行介绍和比较。
一、方差分析方差分析(Analysis of Variance,简称ANOVA)是一种用于比较多个样本均值是否存在差异的统计方法。
方差分析通过比较组间和组内的方差来判断样本均值是否存在显著差异。
方差分析需要满足一些基本假设,如正态分布假设和方差齐性假设。
方差分析可以分为单因素方差分析和多因素方差分析。
单因素方差分析是指只有一个自变量(因素)对因变量产生影响的情况。
多因素方差分析则包含两个或两个以上自变量对因变量的影响,可以用于分析多个因素交互作用的效应。
方差分析的步骤包括建立假设、计算各组均值和方差、计算F值和判断显著性等。
通过方差分析可以得到组间显著性差异的结论,并进一步通过事后多重比较方法确定具体哪些组之间存在显著差异。
二、回归分析回归分析(Regression Analysis)是一种用于分析自变量和因变量之间关系的统计方法。
回归分析通过建立一种数学模型,描述自变量对因变量的影响程度和方向。
回归分析可用于预测、解释和探索自变量与因变量之间的关系。
回归分析可以分为线性回归和非线性回归。
线性回归是指自变量和因变量之间存在线性关系的情况,可以用一条直线进行拟合。
非线性回归则考虑了自变量和因变量之间的非线性关系,需要采用曲线或其他函数来进行拟合。
回归分析的步骤包括建立模型、估计参数、检验模型的显著性、预测等。
回归模型的好坏可以通过拟合优度、回归系数显著性以及残差分析等指标进行评估。
三、方差分析与回归分析的比较方差分析和回归分析都是常用的统计方法,但它们有一些区别。
主要区别包括:1. 目的不同:方差分析用于比较多个样本之间的差异,判断样本均值是否存在显著差异;回归分析则用于建立自变量和因变量之间的函数关系,预测和解释因变量。
2. 自变量个数不同:方差分析一般只有一个自变量(因素),用于比较不同组别之间的差异;回归分析可以包含一个或多个自变量,用于描述自变量对因变量的影响关系。
第八章 方差分析与回归分析一、教材说明本章内容包括:方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容.1、教学目的与教学要求(1)了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.(2)了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,会解决简单的实际问题.(3)熟练掌握Hartley 检验,Bartlett 检验以及修正的Bartlett 检验三种检验方法,会解决简单的实际问题.(4)理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析,会解决简单的实际问题.2、本章的重点与难点本章的重点是平方和的分解,检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握,回归系数的估计方法,回归方程的显著性检验,难点是检验方法和参数估计,重复数相等与不相等场合的方法. 实际问题的检验,回归方程的显著性检验.二、教学内容本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容.§ 方差分析教学目的:了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.教学重点:平方和的分解,检验方法和参数估计 教学难点:检验方法和参数估计教学内容:本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形.问题的提出在实际工作中经常会遇到多个总体均值的比较问题,处理这类问题通常采用方差分析方法.例单因子方差分析的统计模型在例中,我们只考察一个因子,称为单因子试验.记因子为A ,设其有r 个水平,记为1r A ,,A ,在每一水平下考察的指标可看做一个总体,故有r 个总体,假定(1)每一总体均为正态总体,记为2i i N(,)μσ,i 1,2,,r =;(2)各总体方差相同,即222212r σσσσ====(3)每一总体中抽取的样本相互独立,即诸数据ij y 都相互独立 在这三个基本假定下,要检验的假设是012112::,,,rr H H μμμμμμ===↔⋯不全相等 ()如果0H 成立,因子A 的r 个水平均值相同,称因子A 的r 个水平间没有显著差异,简称因子A 不显著;反之,若0H 不成立,因子A 的r 个水平均值不全相同,称因子A 的r 个水平间有显著差异,简称因子A 显著.在每一水平下各作m 次独立重复试验,若记第i 个水平下第j 次重复的实验结果为ij y ,得到r m ⨯个实验结果:ij y ,=1,2,,=1,2,,.i r j m在水平A i 下的实验结果ij y 与该水平下的均值i μ的差距ij ij =y -i εμ称为随机误差.于是有ij ij y =+i εμ, ()该式称为实验结果ij y 的数据结构式.把三个假定用于数据结构式就得到单因子方差分析的统计模型:ij ij 2ij y =+,=1,2,,=1,2,,;(0,)i i r j m N εμεσ⎧⎪⎨⎪⎩诸相互独立,且都服从 () 称诸i μ的平均1=111=(++)=rr i i rr μμμμ∑为总均值,第i 水平下均值i μ与总均值的差=-i i a μμ称为因子A 的第i 水平的主效应,简称为A i 的主效应.则有=1=0,=+.ri i i i a a μμ∑统计模型()可改写为ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i r j m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 假设()可改写为012112:=0:,,,0r r H a a a H a a a ===↔⋯不全为.平方和分解一 实验数据在单因子方差分析中可将实验数据列成如下表格形式因子水平 试验数据 和 平均1A 11y 12y 1m y 1T 1y 2A 21y 22y 2m y 2T 2yr A r1y r2y rm yr T y r合计 T y 二 组内偏差与组间偏差ij ij y -=(y -)+(-)i i y y y y ,记=1i=1i=1=1111=,==m r r mi ij i ij j j m r n εεεεε∑∑∑∑,ij y -i y 称为组内偏差,-i y y 称为组间偏差.三 偏差平方和及其自由度 在统计学中,把k 个数据1,,k y y 分别对其均值1=(++)/k y y y k 的偏差平方和2=1=(-)ki i Q y y ∑称为k 个数据的偏差平方和,简称平方和.由于=1(-)=0kii y y ∑,说明在Q 中独立的偏差只有-1k 个,称为该平方和的自由度,记为f ,=-1.Q f k四 总平方和分解公式各ij y 间总的差异大小可用总偏差平方和T S 表示为211(),=-1r mT ij T i j S y y f n ===-∑∑. ()仅由随机误差引起的数据间差异可用组内偏差平方和,也称误差偏差平方和,记为e S ,211(),=r(m-1)=n-r.r me ij e i i j S y yf ===-∑∑ ()由效应不同引起的数据差异可用组间偏差平方和表示,也称为因子A 的偏差平方和,记为A S ,21(),=-1.rA A ii S m yy f r ==-∑ ()定理 在上述符号下,总平方和T S 可分解为因子平方和.A S 与误差平方和e S 之和,其自由度也有相应分解公式:S =,=+.T A e T A e S S f f f + ()称为总平方和分解式.8. 检验方法为了度量一组数据的离散程度,称/Q MS Q f =为均方和.由均方和的概念,得到/A A A MS S f =,/e e e MS S f =,用/A e F MS MS =作为检验的统计量,为给出检验拒绝域,需要如下定理:定理 在单因子方差分析模型及前述符号下,有(1)22~-),es n r χσ(从而2()=(-)e E S n r σ(2) 22=1()=(-1)+rA ii E S r maσ∑,若0H 成立,则有22~(1)AS r χσ-(3)A S 与e S 相互独立. 由定理知/(,)A eA e F MS MS F f f = ,从而可得检验的拒绝域为1{(,)}A e W F F f f α-=≥.将上述结果列成表格,称为方差分析表来源 平方和 自由度 均方和 F 比因子 A S 1A f r =- /A A A MS S f = /A e F MS MS = 误差 e S -e f n r = /e e e MS S f = 总和 T S 1T f n =-若1(,)A e F F f f α->,则可以认为因子A 显著,即诸正态均值间有显著差异; 若1<(,)A e F F f f α-,则说明因子A 不显著,即保留原假设0H . 常用偏差平方和的计算公式:2211rmT ij i j T S y n ===-∑∑2211r A i i T S T m n ==-∑ e T AS S S =-例参数估计在检验结果为显著时,可进一步求出总均值μ,各主效应i a 和误差方差2σ的估计. 一 点估计总均值μ的估计为ˆy μ=; 各水平均值i μ的估计ˆ,1,2,,i i y i r μ==; 主效应i a 的估计ˆ,1,2,,i i ay y i r =-=误差方差2σ的估计2ˆ/e e e MS S f σ== 二 置信区间由定理知 222~N(,/m),~),ei i e s y μσχσ(f 且两者独立,故(-~t ),/i i e e em y f S f (由此给出A i 的水平均值i μ的1α-的置信区间是1/2ˆ()/i e y t f m ασ-±例单因子试验的数据分析可以知道如下三个结果 因子A 是否显著 试验误差方差2σ的估计诸水平均值i μ的点估计与区间估计(此项在因子A 不显著时无需进行)重复数不等情形1. 数据设因子A 有r 个水平1r A ,,A ,并且第r 个水平i A 下重复进行i m 次试验,可得如下数据:因子水平 重复数 试验数据 和 平均1A 1m 11y 12y 11m y 1T 1y 2A 2m 21y 22y 22m y 2T 2yr A r m r1y r2y r rm y rT r y合计 nTy2. 基本假定、平方和分解、方差分析和判断准则都和前面一样,只是因子A 的平方和A S 的计算公式略有不同:记1ri i n m ==∑,则221ri A i iT T S m n ==-∑ 3. 数据结构式及参数估计式基本同前,需要注意下面两点:(1)总均值11ri i i m n μμ==∑;(2)主效应约束条件为10ri ii m a==∑类似于 有ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i i r j m m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 4 各平方和的计算记1,=im i i ij i j i T T y y m ==∑,=11,=im r ij i j TT y y n ==∑∑则2211,=-1,im rT ij T i j T S y f n n ===-∑∑221,=-1,ri A A i iT T S f r m n ==-∑,=-e T A e S S S f n r =-.例 略§ 多重比较教学目的:了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,能用R 软件来进行多重比较,会解决简单的实际问题。
第八章 方差分析与回归分析§1 单因素试验的方差分析试验指标:研究对象的某种特征。
例 各人的收入。
因素:与试验指标相关的条件。
例 各人的学历,专业,工作经历等与工资有关的特征。
因素水平:因素所在的状态例 学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。
问题:各因素水平对试验指标有无显著的差异?单因素试验方差分析模型 假设1) 影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A L ; 2)每个水平i A 下,试验指标是一个总体i X 。
各个总体的抽样过程是独立的。
3)2~(,)i i i X N μσ,且22i j σσ=。
问题:分析水平对指标的影响是否相同1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ∀;备选假设:1:i j H μμ≠,,i j ∃; 2)如果拒绝原假设,则对未知参数21,,,r μμσL 进行参数估计。
注1)接受假设即认为:各个水平之间没有显著差异,反之则有显著差异。
2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。
检验方法数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的,11ri i i n n μμ==∑。
不难验证,10ri k δ==∑。
各类样本均值水平i A 的样本均值:11in i ijj iX Xn ==∑g ;水平总样本均值:11111i n r rij i i i j i X X n X n n =====∑∑∑,1ri i n n ==∑;偏差平方和与效应组间偏差平方和:22211()rrA i i i i i i S n X X n X nX ===-=-∑∑g g ;(衡量由不同水平产生的差异)组内偏差平方和:2221111()()iin n rrE ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑g g ;(衡量由随机因素在同一水平上产生的差异) 总偏差平方和:222111()in rrT ij i ij i j i S X X n X nX ====-=-∑∑∑;(综合衡量因素,水平之间,随机因素的差异)定理1(总偏差平方和分解定理)T A E S S S =+。
方差分析与回归分析一、引言方差分析与回归分析是统计学中常用的数据分析方法。
它们在研究数据之间的关系以及影响因素方面发挥着重要作用。
本文将介绍方差分析与回归分析的基本概念、原理和应用。
二、方差分析1. 方差分析的基本概念方差分析是一种用于比较多个样本均值是否存在显著差异的统计方法。
它将数据分为不同的组别,通过分析组别间的差异与组内的差异来得出结论。
方差分析可以帮助研究人员确定不同因素对于观测结果的影响程度,并进行比较。
2. 方差分析的原理方差分析的核心是计算组间平方和与组内平方和,并进行比较。
组间平方和反映了不同组别之间的差异程度,组内平方和反映了同一组别内部的差异程度。
通过比较这两个平方和的大小,可以判断样本均值是否存在显著差异。
3. 方差分析的应用方差分析在科学研究和实践应用中具有广泛的应用。
例如,在医学实验中,可以使用方差分析来比较不同药物对疾病治疗效果的差异;在工商管理领域,可以使用方差分析来分析不同市场策略对销售业绩的影响等。
三、回归分析1. 回归分析的基本概念回归分析是一种用于研究变量间相互关系的统计方法。
它通过构建数学模型来描述和预测因变量与自变量之间的关系。
回归分析可以帮助研究人员识别出影响因变量的主要因素,并进行预测和控制。
2. 回归分析的原理回归分析基于最小二乘法,通过拟合一条最佳直线或曲线来描述变量之间的关系。
回归分析可分为简单线性回归和多元线性回归,前者用于研究一个自变量对一个因变量的影响,后者用于研究多个自变量对一个因变量的影响。
3. 回归分析的应用回归分析广泛应用于社会科学、经济学、市场营销等领域。
例如,在经济学中,可以使用回归分析来研究利率、通货膨胀与经济增长之间的关系;在市场营销中,可以使用回归分析来预测销售额与广告投入之间的关系等。
四、方差分析与回归分析的比较方差分析和回归分析都是常用的数据分析方法,但在研究问题和应用场景上存在差异。
方差分析主要用于比较多个组别之间的均值差异,注重的是因素的影响程度;而回归分析主要用于研究变量之间的关系,注重的是因变量的预测和控制。
第八章 方差分析与回归分析§8.1 方差分析8.1.1 问题的提出举例说明概念因子和水平。
因子:对研究对象产生影响的因素。
水平:因子所处的状态。
8.1.2 单因子方差分析的统计模型在研究中只考察一个因子则称为单因子试验,其中,记因子为A ,设其有r 个水平,记为r A A ,,1 ,在每一水平下考察的指标可以看成一个总体,现有r 个水平,故有r 个总体,假定:(1)每一总体均为正态总体,记为r i N i i ,,2,1),,(2;(2)各总体的方差相同,记222221 r ;(3)从每一总体中抽取的样本是相互独立的,即所有的试验结果ij y 都相互独立。
这些假定都可以用统计方法进行验证。
首先比较各水平下的均值是否相同,即要对如下的一个假设进行检验,不全相等r rH H ,,,::211210在不会引起误解的前提下,1H 通常可以省略不写。
若0H 成立,则称因子A 不显著,否则,称因子A 显著。
对如上的假设进行检验,需要从每一水平下的总体抽取样本,设从第i 个水平下的总体获得m 个试验结果(各个水平下相同),记ij y 表示第i 个总体的第j 次重复试验结果。
共得如下m r 个试验结果:m j r i y ij ,,1,,,1,其中r 为水平数,m 为重复数,i 为水平编号,j 为重复编号。
在水平i A 下的试验结果ij y 与该水平下的指标均值i 一般总是有差距的,记i ij ij y ,ij 称为随机误差,于是有ij i ij y上式称为试验结果ij y 的数据结构式。
把三个假定用于数据结构式就可以写出单因子方差分析的统计模型:),0(,,1,,,1,2 N m j r i y ij ij i ij 相互独立,且都服从诸为了能更好地描述数据,常引入总均值和效应的概念:总均值:诸i 的平均 ri i r r 11 ;称第i 水平下的均值i 与总均值 的差i i a ,r i ,,1为因子A 的第i 水平的主效应,简称为i A 的效应。
第⼋章⽅差分析与回归分析(1)第⼋章⽅差分析与回归分析习题8.1 P3801、在⼀个单因⼦试验中,因⼦A 有三个⽔平,每个⽔平下各重复4次,具体数据如下:试计算误差平⽅和e S 、因⼦A 的平⽅和A 、总平⽅和T ,并指出它们各⾃的⾃由度.2、在⼀个单因⼦试验中,因⼦A 有四个⽔平,每个⽔平下各重复的次数分别为5,7,6,8。
那么误差平⽅和、A 的平⽅和及总平⽅和的⾃由度各是多少?5、⽤4种安眠药在兔⼦⾝上进⾏试验,特选24只健康的兔⼦,随机把它们均分为4组,每组各服⼀种安眠药,安眠时间如下所⽰:在显著⽔平α=习题8.2 P3873、有7种⼈造纤维,每种抽4根测其强度,得每种纤维的平均强度及标准差如下:(1)试问七种纤维强度间有⽆显著性差异(0.05α=)(2)若七种纤维的强度间⽆显著性差异,则给出平均强度的置信⽔平为0.95的置信区间;若各种纤维的强度间有显著差异,请进⼀步在0.05α=下进⾏多重⽐较,并指出那种纤维的平均强度最⼤,同时该种纤维平均强度的置信⽔平为0.95的置信区间。
习题8.3 P3942、在安眠药试验中(见习题8.1.5)中已求得到四个样本⽅差:222212340.02,0.08,0.036,0.1307s s s s ====请⽤Hartley 检验在显著⽔平0.05α=下考察四个总体⽅差是否彼此相等。
习题8.4 P4111、假设回归直线过原点,即⼀元线性回归模型为,1,2,...i i i y x i n βε=+=()()20,,i i E Var εεσ==诸观测值相互独⽴。
(1)写出2,βσ的最⼩⼆乘估计;(2)对给定的0x ,其对应的因变量均值的估计为0y ,求()0Var y 。
3、在回归分析计算中,常对数据进⾏变换1212,,1,...i i i i y c x cy x i n d d --=== 其中()()121122,,0,0c c d d d d >>是适当选取的常数。
第八章 方差分析与回归分析一、教材说明本章内容包括:方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容.1、教学目的与教学要求(1)了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.(2)了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,会解决简单的实际问题.(3)熟练掌握Hartley 检验,Bartlett 检验以及修正的Bartlett 检验三种检验方法,会解决简单的实际问题.(4)理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析,会解决简单的实际问题.2、本章的重点与难点本章的重点是平方和的分解,检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握,回归系数的估计方法,回归方程的显著性检验,难点是检验方法和参数估计,重复数相等与不相等场合的方法. 实际问题的检验,回归方程的显著性检验.二、教学内容本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容.§8.1 方差分析教学目的:了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.教学重点:平方和的分解,检验方法和参数估计 教学难点:检验方法和参数估计教学内容:本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形.8.1.1 问题的提出在实际工作中经常会遇到多个总体均值的比较问题,处理这类问题通常采用方差分析方法.例8.1.18.1.2 单因子方差分析的统计模型在例8.1.1中,我们只考察一个因子,称为单因子试验.记因子为A ,设其有r 个水平,记为1r A ,,A ,在每一水平下考察的指标可看做一个总体,故有r 个总体,假定(1)每一总体均为正态总体,记为2i i N(,)μσ,i 1,2,,r =;(2)各总体方差相同,即222212r σσσσ====(3)每一总体中抽取的样本相互独立,即诸数据ij y 都相互独立 在这三个基本假定下,要检验的假设是012112::,,,rr H H μμμμμμ===↔⋯不全相等 (8.1.1)如果0H 成立,因子A 的r 个水平均值相同,称因子A 的r 个水平间没有显著差异,简称因子A 不显著;反之,若0H 不成立,因子A 的r 个水平均值不全相同,称因子A 的r 个水平间有显著差异,简称因子A 显著.在每一水平下各作m 次独立重复试验,若记第i 个水平下第j 次重复的实验结果为ij y ,得到r m ⨯个实验结果:ij y ,=1,2,,=1,2,,.i r j m在水平A i 下的实验结果ij y 与该水平下的均值i μ的差距ij ij =y -i εμ称为随机误差.于是有ij ij y =+i εμ, (8.1.2)该式称为实验结果ij y 的数据结构式.把三个假定用于数据结构式就得到单因子方差分析的统计模型:ij ij 2ij y =+,=1,2,,=1,2,,;(0,)i i r j m N εμεσ⎧⎪⎨⎪⎩诸相互独立,且都服从 (8.1.3) 称诸i μ的平均1=111=(++)=rr i i r r μμμμ∑为总均值,第i 水平下均值i μ与总均值的差=-i i a μμ称为因子A 的第i 水平的主效应,简称为A i 的主效应.则有=1=0,=+.ri i i i a a μμ∑统计模型(8.1.3)可改写为ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i r j m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 假设(8.1.1)可改写为012112:=0:,,,0r r H a a a H a a a ===↔⋯不全为.8.1.3 平方和分解一 实验数据在单因子方差分析中可将实验数据列成如下表格形式因子水平 试验数据 和 平均1A 11y 12y 1m y 1T 1y2A 21y 22y 2m y 2T 2yr A r1y r2y rm y r T yr合计 T y 二 组内偏差与组间偏差ij ij y -=(y -)+(-)i i y y y y ,记=1i =1i =1=1111=,==m r r mi i j i i j j jm r n εεεεε∑∑∑∑,ij y -i y 称为组内偏差,-i y y 称为组间偏差.三 偏差平方和及其自由度 在统计学中,把k 个数据1,,k y y 分别对其均值1=(++)/k y y y k 的偏差平方和2=1=(-)ki i Q y y ∑称为k 个数据的偏差平方和,简称平方和.由于=1(-)=0kii y y ∑,说明在Q 中独立的偏差只有-1k 个,称为该平方和的自由度,记为f ,=-1.Q f k四 总平方和分解公式各ij y 间总的差异大小可用总偏差平方和T S 表示为211(),=-1r mT ij T i j S y y f n ===-∑∑. (8.1.3)仅由随机误差引起的数据间差异可用组内偏差平方和,也称误差偏差平方和,记为e S ,211(),=r(m-1)=n-r.r me ij e i i j S y yf ===-∑∑ (8.1.4)由效应不同引起的数据差异可用组间偏差平方和表示,也称为因子A 的偏差平方和,记为A S ,21(),=-1.rA A ii S myy f r ==-∑ (8.1.5)定理8.1.1 在上述符号下,总平方和T S 可分解为因子平方和.A S 与误差平方和e S 之和,其自由度也有相应分解公式:S =,=+.T A e T A e S S f f f + (8.1.6)称为总平方和分解式.8.1.4 检验方法为了度量一组数据的离散程度,称/Q MS Q f =为均方和.由均方和的概念,得到/A A A MS S f =,/e e e MS S f =,用/A e F MS MS =作为检验的统计量,为给出检验拒绝域,需要如下定理:定理8.1.2 在单因子方差分析模型及前述符号下,有(1)22~-),es n r χσ(从而2()=(-)e E S n r σ(2) 22=1()=(-1)+rA i i E S r maσ∑,若0H 成立,则有22~(1)AS r χσ-(3)A S 与e S 相互独立. 由定理8.1.2知/(,)A eA e F MS MS F f f = ,从而可得检验的拒绝域为1{(,)}A e W F F f f α-=≥.将上述结果列成表格,称为方差分析表来源 平方和 自由度 均方和 F 比因子 A S 1A f r =- /A A A MS S f = /A e F MS MS = 误差 e S -e f n r = /e e e MS S f = 总和 T S 1T f n =-若1(,)A e F F f f α->,则可以认为因子A 显著,即诸正态均值间有显著差异;若1<(,)A e F F f f α-,则说明因子A 不显著,即保留原假设0H . 常用偏差平方和的计算公式:2211rmT ij i j T S y n ===-∑∑2211r A i i T S T m n ==-∑e T A S S S =-例8.1.28.1.5 参数估计在检验结果为显著时,可进一步求出总均值μ,各主效应i a 和误差方差2σ的估计. 一 点估计总均值μ的估计为ˆy μ=; 各水平均值i μ的估计ˆ,1,2,,i i y i r μ==; 主效应i a 的估计ˆ,1,2,,i i ay y i r =-=误差方差2σ的估计2ˆ/e e e MS S f σ== 二 置信区间由定理8.1.2知 222~N(,/m),~),ei i e s y μσχσ(f 且两者独立,~t ),i i e f (由此给出A i 的水平均值i μ的1α-的置信区间是1/2ˆ()i e y t f ασ-±. 例8.1.3单因子试验的数据分析可以知道如下三个结果 因子A 是否显著 试验误差方差2σ的估计诸水平均值i μ的点估计与区间估计(此项在因子A 不显著时无需进行)8.1.6 重复数不等情形1. 数据设因子A 有r 个水平1r A ,,A ,并且第r 个水平i A 下重复进行i m 次试验,可得如下数据:因子水平 重复数 试验数据 和 平均1A 1m 11y 12y 11m y 1T 1y2A 2m 21y 22y 22m y 2T 2yr A r m r1y r2y r rm y r T ry合计 nTy2. 基本假定、平方和分解、方差分析和判断准则都和前面一样,只是因子A 的平方和A S 的计算公式略有不同:记1ri i n m ==∑,则221ri A i iT T S m n ==-∑ 3. 数据结构式及参数估计式基本同前,需要注意下面两点:(1)总均值11ri i i m n μμ==∑;(2)主效应约束条件为10ri ii m a==∑类似于8.1.8 有ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i i r j m m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 4 各平方和的计算记1,=im i i ij i j i T T y y m ==∑,=11,=im r ij i j TT y y n ==∑∑则2211,=-1,im rT ij T i j T S y f n n ===-∑∑221,=-1,ri A A i iT T S f r m n ==-∑,=-e T A e S S S f n r =-.例8.1.4 略§8.2 多重比较教学目的:了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,能用R 软件来进行多重比较,会解决简单的实际问题。
高中数学:第八章 方差分析与回归分析§1 单因素试验的方差分析试验指标:研究对象的某种特征。
例 各人的收入。
因素:与试验指标相关的条件。
例 各人的学历,专业,工作经历等与工资有关的特征。
因素水平:因素所在的状态例 学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。
问题:各因素水平对试验指标有无显著的差异?单因素试验方差分析模型 假设1) 影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A L ; 2)每个水平i A 下,试验指标是一个总体i X 。
各个总体的抽样过程是独立的。
3)2~(,)i i i X N μσ,且22i j σσ=。
问题:分析水平对指标的影响是否相同1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ∀;备选假设:1:i j H μμ≠,,i j ∃; 2)如果拒绝原假设,则对未知参数21,,,r μμσL 进行参数估计。
注1)接受假设即认为:各个水平之间没有显著差异,反之则有显著差异。
2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。
检验方法数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的,11ri i i n n μμ==∑。
不难验证,10ri k δ==∑。
各类样本均值水平i A 的样本均值:11in i ijj iX Xn ==∑g ;水平总样本均值:11111i n r rij i i i j i X X n X n n =====∑∑∑,1ri i n n ==∑;偏差平方和与效应组间偏差平方和:22211()rrA i i i i i i S n X X n X nX ===-=-∑∑g g ;(衡量由不同水平产生的差异)组内偏差平方和:2221111()()iin n rrE ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑g g ;(衡量由随机因素在同一水平上产生的差异) 总偏差平方和:222111()in rrT ij i ij i j i S X X n X nX ====-=-∑∑∑;(综合衡量因素,水平之间,随机因素的差异)定理1(总偏差平方和分解定理)T A E S S S =+。
即222111111()()()iiin n n rrrij ij i i i j i j i j X X X X X X ======-=-+-∑∑∑∑∑∑g g ,或直接证明。
注:利用11()()0in r ij i i i j X X X X ==--=∑∑即可证明。
定理2(统计特性)2()E ES n r σ=-,221(1)rA i ii ES r n σδ==-+∑,221(1)rT i i i ES n n σδ==-+∑。
证 2222221111()(())i in n r r E iji i i i i i j i j ES EX n EX n σμσμ=====-=+--∑∑∑∑g221(1)()ri i n n r σσ==-=-∑22211()r rA i i i i i i ES n E X X n EX nEX ===-=-∑∑g g22221()()ri ii in n n nσσμμ==+-+∑221(1)ri i i r n σδ==-+∑定理31)22/~()E S n r σχ-,且E S 与A S 独立;2)如果假设0H 成立,那么,22/~(1)T S n σχ-;且如果假设i n m =,1i r ≤≤,则还有,22/~(1)A S r σχ-。
证 1)由于不同水平的样本间的独立性,E S 较易处理。
对固定的i ,2~(,)ij i i X N μσ,1,,i j n =L ,且独立,所以由第五章定理2的结论,22211()~(1)iin n ij i ij i i i i j j X X X X n μμχσσ==⎛⎫⎛⎫----=- ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭∑∑g g , 利用2χ可加性,即得2221/~()()rE i i S n r n r σχχ=-=-∑,且i X g 与E S 独立。
注意到11ri i i X n X n ==∑g ,因此X 也与E S 独立,从而A S 也与E S 独立。
注 这里只需方差假设相同,不需要假设均值相同。
2)~(0,1)ij iX N μσ-,且独立,同样利用第五章定理2,22,,1()~(1)ij ii j i i j i j X X n n μμχσσ'''''----∑∑。
但在假设成立时,222,,,11()()ij ii j i ij i ji j i jX X X X n μμσσσ'''''---=-∑∑∑,即得结论。
且X 与T S 独立。
同时,2221()()/~(1)ri A i X X S r μμσχσ=⎛⎫---=- ⎪⎝⎭∑g 。
注 此处结论证明利用了i n 都相等,即利用:1,11r k ij k i jX X r n ==∑∑g 。
但上述结论在组样本容量不同时,直接利用正交变换仍可类似证明。
从统计角度看,如果假设0H 成立,那么2111E A ES ES n r r σ==--,而在假设不成立时,21111111r A E i i E i ES ES n ES r n r r n r δ==+>----∑,即统计量/(1)/()A E S r F S n r -=-将有偏大的趋势。
那么,大到何值可以采信为推翻假设的反例,就回到前面的假设检验问题了。
定理 置信度为α时,假设0H 的检验问题的拒绝域为{(1,)}W F F r n r α=≥--。
参数估计问题如果各因素有显著差异,即对某些水平i j μμ≠,那么就需要估计这些参数的值和2σ。
1.最大似然估计总体2~(,)i i X N μσ22()2i x μσ--,所以最大似然函数为22()221,(,,,)ij i x r i jL μσμμσ--=L ,一般,我们把i μ分成两部分:i i μμδ=+,其中1i ir μμ=∑。
所以i δ即表示了各水平的差异,有0i i in δ=∑。
由此最大似然函数可表示为,22()221,(,,,,)ij i x r i jL μδσμδδσ---=L 。
对数最大似然函数:22212,()ln (,,,,)ln(2)22ij i r i jx n L μδμδδσπσσ--=--∑L ,约束条件:0i iin δ=∑。
求其最大值点得:212,()ln (,,,,)202ij i r i jx L μδμδδσμσ--∂==∂∑L , 即:,0ij i i i jix n n μδ--=∑∑;或,0nx n μ-=。
21211()[ln (,,,,)]202ir ij i r i i i i j n i x L k n kn μδμδδσδδσ=≤≤--∂+=+=∂∑∑L , (k 是拉格朗日乘子)即20i i i i i i n x n n k n μδσ---=g ;或,20i i x k μδσ---=g ;221224,1ln (,,,,)()022r iji i jn L xμδδσμδσσσ∂=-+--=∂∑L ,即22,1()ij i i j x n σμδ=--∑,或,2222,1{22}ij i i i i i i j i ix nx n x n n n σμδμδ=--++∑∑∑, 整理结果得:ˆx μ=,2ˆˆˆi i x k δμσ=--g。
由此利用ˆ0i i in δ=∑,解得2ˆˆk x σμ=-。
因此i i x x δ=-g 。
所以2222,1ˆˆˆ{2}ij i i i i i i jiix nx n x n nσδδ=--+∑∑∑g, 同时,2ˆˆˆˆ2()2i i i i i i i i i i i iiiin n x n x x n x δδδδ-=--∑∑∑∑g g g22ˆ()i i i i i i i i iiin x n x x x n x nx δ=-=--=-+∑∑∑gg g g , 因此222,1ˆ{}Eij i i i jiS x n x n nσ=-=∑∑g 。
2.区间估计第i 个水平的均值:2~(,/)i i i X N n μσ,即~(0,1)X N ;且22/~()E S n r σχ-与其独立,所以~()t n r -。
即可得到置信区间:/2/2(((i i X t n r X t n r αα--+-。
但,必须注意,对整个问题而言,置信水平不再是1α-。
记事件/2/2{(((i i i i E X t n r X t n r ααμ=∈--+-。
则()1i P E α=-。
但()1()1i i iiP E P E r α=-≥-I U 。
§2 一元线性回归设有两个总体(,)X Y ,它们之间不是独立的,而是具有某种依赖关系,即对它们抽样,得到的是一对样本和观测值:11(,),,(,)n n X Y X Y L ,11(,),,(,)n n x y x y L 。
例 父子的身高;某种动物体重和体积,等等。
现在关心的问题是:从观测的结果,能否找出它们之间的联系?即()()Y f X X ε=+,其中ε是随机变量。
从实际问题出发,也可认为X 是非随机的确定自变量,本来两者之间应该有确定的函数关系,但由于某种干扰,这种关系产生了某种不确定性。
如何合理地确定其关系()f x ?一元线性回归模型 假设1)01Y x ββε=++; 2)2~(0,)N εσ。
每次抽样,01i i i Y x ββε=++,其中2~(0,)i N εσ,且相互间是独立。
等价的观点:201~(,)i i Y N x ββσ+。
问题 由样本观测数据11(,),,(,)n n x y x y L ,如何合理估计参数01,ββ?方法1)确定性观点:最小二乘法01201,1min ()ni i i y x ββββ=--∑,使观测得到的ε的样本平方和偏差最小。
解 记11n i i y y n ==∑,11ni i x x n ==∑,11()()n nxy i i i i i i l x x y y x y nxy ===--=-∑∑,22211()n n xx i ii i l x x x nx ===-=-∑∑,22211()n nyy i i i i l y y y ny ===-=-∑∑。