第3章方差分析
- 格式:pdf
- 大小:443.34 KB
- 文档页数:56
多元统计分析第三章假设检验与⽅差分析第3章多元正态总体的假设检验与⽅差分析从本章开始,我们开始转⼊多元统计⽅法和统计模型的学习。
统计学分析处理的对象是带有随机性的数据。
按照随机排列、重复、局部控制、正交等原则设计⼀个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进⾏统计推断,是⾃然科学和⼯程技术领域常⽤的⼀种研究⽅法。
由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论⽅法研究的出发点。
所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要⽤概率来表明其可靠程度。
统计推断的任务是“观察现象,提取信息,建⽴模型,作出推断”。
统计推断有参数估计和假设检验两⼤类问题,其统计推断⽬的不同。
参数估计问题回答诸如“未知参数θ的值有多⼤?”之类的问题,⽽假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。
本章主要讨论多元正态总体的假设检验⽅法及其实际应⽤,我们将对⼀元正态总体情形作⼀简单回顾,然后将介绍单个总体均值的推断,两个总体均值的⽐较推断,多个总体均值的⽐较检验和协⽅差阵的推断等。
3.1⼀元正态总体情形的回顾⼀、假设检验在假设检验问题中通常有两个统计假设(简称假设),⼀个作为原假设(或称零假设),另⼀个作为备择假设(或称对⽴假设),分别记为0H 和1H 。
1、显著性检验为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来⾃总体),(2σµN 的样本,我们要检验假设100:,:µµµµ≠=H H (3.1)原假设0H 与备择假设1H 应相互排斥,两者有且只有⼀个正确。
备择假设的意思是,⼀旦否定原假设0H ,我们就选择已准备的假设1H 。
当2σ已知时,⽤统计量nX z σµ-=在原假设0H 成⽴下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。
《预防医学》方差分析课件xx年xx月xx日•引言•方差分析基本原理•方差分析在医学研究中的应用•方差分析的局限性及注意事项目•实际案例分析•结论与总结录01引言通过对数据组间的差异进行统计分析,判断各因素对总体影响的大小和显著性。
方差分析的基本原理追溯方差分析的起源,介绍其在统计学中的重要地位和应用。
方差分析的起源与发展方差分析简介医学研究中的变量关系探讨方差分析在医学领域中如何处理多因素、多水平的变量关系。
医学实验设计介绍方差分析在实验设计中的应用,如随机区组设计、拉丁方设计等。
方差分析在医学领域的应用课程目的与安排学习目标明确通过本课程学习,学生应掌握的基本概念、方法和技能。
课程内容介绍本课程的主要内容,包括方差分析的基本原理、应用和实例分析等。
时间安排详细说明课程的时间安排、授课方式及考核方式。
02方差分析基本原理方差分析是一种用于比较和分析多个样本均数间差异的统计学方法。
通过计算F值和P值,判断各样本间是否存在统计学差异,从而为进一步的数据分析和推断提供依据。
方差分析的统计学原理方差分析的假设条件02各样本方差齐性,即各组方差相等。
03样本含量足够大。
方差分析适用于多组数据的比较和分析,可广泛应用于医学、社会科学和其他领域的数据分析。
它可用于研究多个因素对一个或多个因变量的影响,也可用于研究不同分组之间的差异。
方差分析也可与其他统计方法结合使用,如多重比较、回归分析和相关性分析等,以便更深入地探索数据和分析结果。
方差分析的适用范围03方差分析在医学研究中的应用方差分析在临床试验中的应用判断试验结果的组间差异通过方差分析可以比较不同组之间的均数差异,判断临床试验结果的组间差异是否存在统计学意义。
要点一要点二找出影响试验结果的因素方差分析可以找出影响临床试验结果的各种因素,如不同治疗方案、不同处理条件等,并对这些因素进行统计分析。
制定更加科学的临床方案方差分析可以制定更加科学的临床方案,为临床实践提供更加准确可靠的依据。
第3章 多元线性回归思考与练习参考答案3.2 讨论样本容量n 与自变量个数p 的关系,它们对模型的参数估计有何影响?答:在多元线性回归模型中,样本容量n 与自变量个数p 的关系是:n>>p 。
如果n<=p 对模型的参数估计会带来很严重的影响。
因为: 1. 在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。
2. 解释变量X 是确定性变量,要求()1rank p n =+<X ,表明设计矩阵X 中的自变量列之间不相关,即矩阵X 是一个满秩矩阵。
若()1rank p <+X ,则解释变量之间线性相关,1()X X -'是奇异阵,则β的估计不稳定。
3.3证明随机误差项ε的方差σ2的无偏估计。
证明:22122222111112221111ˆ(),111()()(1)(1)()(1)1ˆ()()1n i i n n nnnii ii iiii i i i i i ni i SSE e e e n p n p n p E e D e h h n h n p E E e n p σσσσσσσ======='===------∴==-=-=-=--∴==--∑∑∑∑∑∑∑3.4 一个回归方程的复相关系数R=0.99,样本决定系数R 2=0.9801,我们能判断这个回归方程就很理想吗? 答:不能断定这个回归方程理想。
因为:1. 在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F 检验或者关于回归系数的t 检验,所建立的回归方()1ˆ2--=p n SSE σ程都没能通过。
2. 样本决定系数和复相关系数接近于1只能说明Y 与自变量X1,X2,…,Xp 整体上的线性关系成立,而不能判断回归方程和每个自变量是显著的,还需进行F 检验和t 检验。
3. 在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得 R 2往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的R 2的增大与拟合好坏无关。
anova方差分析ANOVA(方差分析)概述:方差分析(Analysis of Variance,简称ANOVA)是一种统计方法,用于比较两个或多个组之间的均值差异是否具有统计显著性。
ANOVA 是一种多元统计分析方法,可以帮助我们理解因素对于观测变量的影响程度。
原理:在进行方差分析时,我们将总体均值之间的差异分为两部分,一部分是不同组内个体之间的差异(称为组内方差),另一部分是不同组之间的差异(称为组间方差)。
通过计算组内和组间方差的比值,我们可以得到方差比(F-ratio),从而判断不同组的均值之间是否存在显著差异。
步骤:1. 建立假设:* 零假设(H0):不同组的均值没有显著差异。
* 备择假设(H1):不同组的均值存在显著差异。
2. 计算方差:* 组间方差(SSB):用于衡量不同组之间的差异。
* 组内方差(SSW):用于衡量同一组内个体之间的差异。
3. 计算F值:* F值 = 组间方差 / 组内方差。
4. 判断显著性:* 根据F分布表,在给定显著性水平(一般取0.05)下,查找对应的临界值。
* 如果计算得到的F值大于临界值,则可以拒绝零假设,认为不同组的均值存在显著差异。
注意事项:1. 样本独立性:ANOVA要求不同组之间的样本必须相互独立,即每个个体只属于一个组,各组之间没有重叠。
2. 方差齐性:ANOVA要求不同组之间的方差相等,即组间方差与组内方差应该接近相等。
3. 正态分布:ANOVA要求不同组之间的观测值满足正态分布,以保证计算的结果准确性。
应用领域:ANOVA常用于实验研究、质量控制以及一些行业调查中,例如以下场景:- 新药疗效比较:比较不同药物在治疗同一疾病上的效果。
- 客户满意度调查:比较不同年龄、不同性别、不同教育程度等因素对客户满意度的影响。
- 厂商竞争力分析:比较不同厂商在市场份额、销售额等指标上的差异。
总结:ANOVA作为一种常用的统计方法,可以帮助我们确定不同组之间的均值差异是否具有统计意义。
第3章多元线性回归思考与练习参考答案讨论样本容董n 与自变量个数P 的关系,它们对模型的参数估计有 何影响 答:在多元线性回归模型中,样本容量n 与自变量个数P 的关系是:n»po 如果n<=p 对模型的参数估计会带来很严重的影响。
因为: 1. 在多元线性回归模型中,有P+1个待估参数P,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。
2.解释变量X 是确定性变量,要求"朮(X) = p + l<n,证明:&2 = ---- ! --- SSE = --- ! -- {e*e} = - ! --- V e~,n- p-\ n- p-\ H- p_ 1 信n nntin••・ £(》才)=工£>(勺)=工62(1-九)=<72工(1一九)=<720?-工心)=<7讹一卩一1)i-lr-l/-)r-Ir.)••• E(P ) = —!~= b'"一 pj ZT一个回归方程的复相关系数皆,样本决定系数RJ,我们能判断这 个回归方程就很理想吗 答:不能断定这个回归方程理想。
因为:1.在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F 检验或者关于回归系数的t 检验,所建立的回归方 程都没能通过。
X 中的自变量列之间不相关,即矩阵X是一个满秩矩阵。
若rafik(X) <卩+1,则解释变量之间线性相关, (XX)-'是奇异阵,贝!|0的估计不稳定。
证明&2 =一P 随肌误差项£的方差2的无偏估计。
表明设计矩阵2.样本决定系数和复相关系数接近于1只能说明Y与自变量X1,X2,…,X P整体上的线性关系成立,而不能判断回归方程和毎个自变量是显著的,还需进行F检验和t检验。
3.在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得F往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的F的增大与拟合好坏无关。
第3章方差分析
方差分析:通过观测数据对因素的影响大小作出
合理推断。
方差分析种类:
◆单因素方差分析
◆两因素方差分析
▲无交互作用的两因素方差分析
▲有交互作用的两因素方差分析
◆三因素方差分析
1
2
一、单因素方差分析
1,,r A r A A 因素的个不同水平用表示.
方差分析的目的是在众多因素中找出有显著影响的因素,为此需要做试验,试验中可以变化的、影响试验指标的因素称为因素,用大写字母A 、B 、C 、……表示,因素在试验中所取的不同状态称为水平.方差分析是检验同方差的若干正态总体均值是否相等的一种统计分析方法。
3
检验问题:22~(,)1,2,,;1,2,,,i j i i j i i X N X i r j n μσμσ⎧⎪⎪==⎨⎪⎪⎩
相互独立,未知0111::,,r r H H μμμμ==↔ 不全相同设因素A 有r 个不同水平A 1、…Ar ,在A i 下试验结果X i ~N (µi ,σ2), i =1 , …, r 。
在A i 下做n i (≥2)次试验,相当于从总体X i 中抽取了一组样本X i 1, …, X i n i ,他们相互独立,故方差分析模型为:
若拒绝H 0,则表示因素A 显著,否则为不显著。
10例1某厂家为考察某种家电的广告内容对其销售量
的影响,在其他条件尽量不变的情况下,设计了三种不同内容的广告:广告A 1强调安装方便性;广告A 2强调能耗经济性;广告A 3强调低噪性。
在广告被广泛宣传后,按寄回的广告上的订购数计算,一年四个季度的销售量见下表:
Matlab统计工具箱中单因素方差分析的命令是anoval
各组数据个数相等(均衡数据)时用法:p=anoval(x)
,
返回值p是一个概率,当p>α时接受H
x为n×r的数据矩阵(如上面的单因素试验数据表形式),
x的每一列是一个水平的数据。
另外,还给出一个方差表和一个Box图
各组数据个数不相等时用法:p=anova1(x,group) x为数组,从第1组到第r 组数据依次排列;
group为与x同长度的数组,标志x中数据的组别
(在与x第i组数据相对应的位置处输入整数i (i=1,…,r) )
13
14
x=[ 163 184 206
176 198 191170 179 218185 190 224 ];p=anova1(x)
编写程序如下运行结果
求得p=0.0039<0.05,故拒绝H 0 ,即认为广告内容的不同对销售量的影响是很大的。
17
x= [ 1620 1580 1460 1500
1670 1600 1540 15501700 1640 1620 16101750 1720 1680 1800 ];
x=[x(1:4),x(16),x(5:8),x(9:11),x(12:15)];
g=[ones(1,5),2*ones(1,4),3*ones(1,3),4*ones(1,4)];p=anova1(x,g)
求得0.01<p=0.0331<0.05,所以几种工艺制成的灯泡寿命在显著水平α=0.01下无显著差异,但在显著水平α=0.05
下有显著差异
28(二)有交互作用的两因素方差分析
1.i j i j
μμαβ≠++数学模型为对(Ai ,B j )的每个组合至少做t (≥2 ) 次试验,试验结果X ijk
1,1,1i r j s k t
≤≤≤≤≤≤有交互作用的方差分析模型:
21
1112,~..(0,)
0,0,1,1,,,,i j k i j i j i j k i j k r s r s i i i j i j i j i j i j i j X r i i d N r r i r j s
r μαβεεσαβμαβσ====⎧=++++⎪⎪
====≤≤≤≤⎨⎪⎪⎩
∑∑∑∑未知
i j i j i j i j i j i j
r A i B j r μμαβμμαβ=−−−=+++称为因素的第个水平与因素的第个水平的交互效应,这时
例4在某化工厂生产中为了提高收率,选了三种不同浓度,四种不同温度做试验。
在同一浓度和温度组合下各做两次试
验,其收率数据如下计算表所列(数据
均已减75)。
试在显著性水平(α=0.05)
下检验不同浓度、不同温度以及它们之
间的交互作用对收率有无显著影响。
33
例5 一个超市将一种商品采用3种不同的包装,放在3个不同的货架上作销售试验,
希望检验不同的包装、不同货架对销售
量是否有显著影响,交互作用显著,随
机地抽取3天的销售量作样本,取检验水
平α=0.05,其观测结果如下表:
37
40
Matlab 实现: 命令为p=anova2(x,reps)
其中x 不同列的数据表示单一因素的变化情况,不同行中的数据表示另一因素的变化情况。
如果每种行-列对(“单元”)有不止一个的观测值,则用参数reps 来表明每个“单元”多个观测值的不同标号,即reps 给出重复试验的次数t 。
下面的矩阵中,列因素有3种水平,行因素有两种水平,但每组水平有两组样本,相应地用下标来标识
⎥⎥
⎥⎥⎦
⎤
⎢⎢⎢⎢⎣⎡232222
212
231221211132122112131121111x x x x x x x x x x x x
clc,clear
x0=[5 6 4 6 8 7 4 3 5
7 8 8 5 5 5 3 6 4
3 2
4 6 6
5 8 9 6];
x1=x0(:,1:3:7);x2=x0(:,2:3:8);x3=x0(:,3:3:9);
for i=1:3 Array x(3*i-2,:)=x1(i,:);
x(3*i-1,:)=x2(i,:);
x(3*i,:)=x3(i,:);
end
p=anova2(x,3)
求得p=0.352 0.7815 0,表明货物的包装及放的货架
这两个因素试验均值相等的概率不是小概率,故可接受均
值相等假设。
但两者交互作用显著.
41
42
三、三因素方差分析
因素A 取r 个不同水平A 1,…,A r ;因素B 取s 个不同水平B 1,…,B s ;因素C 取t 个不同水平C 1,…,C t ;(A i , B j , C k ) 组合下重复q 次试验,试验结果X i jkl ~ i.i.d.N (u i j k
,σ2)
46
1(1)(1)(1)(1)(1)(1)(1)(1)(1)(1)
AB AC BC AB C e n rstq n r s n r t n s t n r s t n rst q =−=−−=−−=−−=−−−=−
48
例6某集团为研究销售点所在地理位置、销售点处的广告和销售点的装潢这三个因素对商品销售量的影响程度,选了三个位置(如市中心黄金地段、非中心地段、城乡结合部),两种广告形式,两种装潢档次在四个城市进行了搭配试验。
用A 1,A 2,A 3表示三种位置,B 1,B 2代表两种广告形式,C 1,C 2表示装潢档次,它们分别称为A 、B 、C 三种因素。
每个组合在四个城市的销售量的统计数据如下:
问:哪种组合对销售量的影响显著,即
何种组合对增加销售量效果最好,位
置、广告、装潢这三个因素中哪一个对
销售量影响最大?
50。