当前位置:文档之家› 第十八章 方差分析

第十八章 方差分析

第十八章  方差分析
第十八章  方差分析

第十八章方差分析

第一节单因素方差分析

一、原理与功能分析

T检验方法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验,但在实际上经常会遇到多个处理优劣的比较问题,即需进行多个平均数间的差异显著性检验。这时,再运用T检验的方法就难以胜任。

方差分析方法是将由k个处理的观察值作为一个整体看待,把观察值总变异的平方和及自由度分解为相对于不同变异来源的平方和及自由度,继而获得不同变异来源总体方差估计值;通过计算总体方差估计值的比值,就能检验各样本所属总体平均数是否相等,方差分析实质上是关于观察值变异原因的数量分析。

方差分析的基本原理就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释。通过各变异来源的均方与误差均方比值的大小,借助F分布作出统计推断,判断各因素对各组均数有无影响。在方差分析中主要就是要分析3种变异以及它们之间的关系。

方差分析检验的问题是当因素选择不同的水平时,对结果有无显著的影响。为了在有随机误差的情况下进行比较,各水平都应有一定数量的重复。

二、实例问题

【例1】某教师在教学中采用启发式教学方法,旨在提高学生体质水平,为检验这一方法对体质的影响,分别从4个学校高三男生中抽样,进行统一体质测试,体质成绩如下表。试分析各学校高三男生的体质测试成绩是否有差别。

表18-1 4个学校高三男生体质测试成绩

三、SPSS求解过程

1、数据输入整理。在建立数据文件时需要定义3个变量,如图18-1 所示,它们分别为测量编号、体质成绩和学校。由于要求因素变量为数值型,因此学校变量取值范围1~4,分别代表A、B、C、D等4个学校。

图18-1 原始数据的输入整理

2、打开相关数据文件,选择菜单“Anlyxe-Compare Means-One Way ANOV A”,如图18-2所示,弹出“单因素方差分析(One Way ANOV A)”对话框,如图18-3所示。

图18-2 选择菜单进入单因素方差分析对话框

图18-3 单因素方差分析对话框

3、选择需要进行One Way ANOV A分析的变量,可选入多个结果变量(因变量)。从对话框左侧的变量列表中选择变量“体质得分”,使之进入右框“Dependent List”列表框。

4、选入需要比较的分组因素。且只能选入一个。从对话框左侧的变量列表中选择变量“学校”,使之进入“Factor”框。

5、对组间平方和进行线性分解并检验。单击“Contrasts”按钮,打开如图18-4“One Way ANOV A:Contrasts”对话框。本例忽略此项设置。

图18-4 对组间平方和进行线性分解并检验

6、选择进行各组两两比较的方法。单击“Post Hoc”按钮,弹出如图18-5所示的对话框。

图18-5 选择各组间方差两两比较方法

(1)“Equar Variaqnces Assumed”复选框组:当各组方差齐性时可用的两两比较方法,共有14种,最常用的是LSD(即最小显著差异T检验)和S-N-K-q 法(即q检验)。本例选取LSD。

(2)“Equar Variaqnces Not Assumed”复选框组:一组当各组方差不齐性时可用的两两比较,共有4种,常用的有Dunnetts/s法。

(3)“Significance Level”编辑框:定义两两比较时的显著性水平,默认值

为0.05。

(4)完成设置后,单击“Continue”按钮,返回“One Way ANOV A:Contrasts”对话框。

7、定义相关统计选项以及缺失值处理方法。单击“Options”按钮,弹出如图18-6所示对话框。

图18-6 相关统计选项与缺失值处理方法

(1)选择附加统计分析项目“Statistics”复选框组:本例选择描述性统计(Descriptive)方差齐性检验(Homogeneity-of-variance)。

(2)“Means plot”复选框:用各组均数制图,本例选择该项。

(3)定义缺失值的处理方法“Missing Values”单选框组:默认上框“只要相关变量有缺失值,则在所有分析中均将该记录去除。

(4)完成设置后,单击“Contrasts”按钮,返回“One Way ANOV A:Contrasts”对话框。

8、所有设置确认无误后,单击“OK”按钮,执行单因素方差分析,等待输出结果。

四、结果解释

输出结果包括5个部分,分别是描述性统计表、方差齐性检验、方差分析表、多重比较表和各组均值折线图。

1、表18-2给出了一些基本描述性统计量。从表中可知,输出的统计量包括各组样品数、均数、标准差、标准误、均值95%置信区间、最小值和最大值,如各组参与分析的样品数都为4,总样品数为16。

表18-2 基本描述统计量

2、下面是方差齐次性检验结果。从表18-3中可知,输出的相伴概率(Sig.)为0.329,远大于显著性水平0.05,因此可以认为各组的总体方差相等。

表18-3 方差齐性检验

3、下面输出的方差分析表。从表18-4中可知,总离差平方和为460.438,组间离差平方和为308.188,组内离差平方和为152.250,组间离差平方和中能被线性解释的部分为103.513,方差检验F=8.097,对应的相伴概率(Sig.)为0.003,小于显著性水平0.05,因此认为4组之中至少有一组与另一组之间的差异显著,但不能说明是哪两组之间差异显著。

表18-4 方差分析表

4、表18-5输出的是多重比较表,为LSD(T检验)法多重比较结果。从表中可知,学校A和学校C之间、学校B和学校D之间的相伴概率都大于显著性

水平0.05,说明这两组之间的差异不显著,其他各种组合的两两之间的相伴概率都小于0.05,说明它们两两之间差异显著,表格也都用“*”标识,以突出显示。

表18-5 均数多重比较

5、图18-7为输出的各组均值折线图,可知学校A和学校C的均值相对较小。

图18-7 各组均值折线图

五、要点提示

单因素方差分析指的是一个因素对于试验结果的影响和作用,这一因素可以有几个不同的水平,因素的水平实际上就是因素的取值或者是因素的分组。单因素方差分析在SPSS中可通过One Way ANOV A过程或Univariate过程来完成。其中Univariate过程实质是多因素方差分析。

方差分析表中的F值显著或极显著,表明实验中各处理平均数间存在显著或极显著差异,但并不意味着任意两个处理平均数间的差异都显著或极显著。为了得到任意两两处理平均数间的比较,判断两两处理平均数间的差异显著性,需要在SPSS的One Way ANOV A(单因素方差分析)过程中指定多重比较方法。

第二节多因素方差分析

一、原理与功能分析

(一)多因素方差分析基本概念

在实际研究中,问题往往比较复杂,某种试验结果常常受到两个或两个以上因素的影响,要求我们同时考虑两种甚至更多因素,以及这些因素共同作用的影响。

多因素方差分析的基本思想与单因素方差分析基本相同。首先分别计算出总变差、各个因素的变差以及随机误差的变差。其次根据各变差相应的自由度求出均方差,最后计算出F值并作F检验。多因素方差分析不仅需要分析多个因素的独立作用影响,还需要分析多个因素交互作用的影响,以及随机变量对结果的影响。

与单因素方差分析相比,交互作用是多因素方差分析中新的概念之一。当一个因素的效应明显地依赖于其他因素的水平时,我们称这些因素间有交互效应。例如,由于人的体质不同,运动处方的效果也可能会有不同;交互效应的有无可用一些较为直观的方法粗略估计,如用图形来估计,图18-8所示的就是这种趋势。图中每条曲线代表因素的一个水平。若各曲线平行或近似平行,可认为无交

图18-8 交互效应示意图

互效应,否则认为有交互效应。不过这只是一种粗略的直观判断,在多因素方差分析的过程中,对交互效应的有无可进行统计检验。

双因素或多因素方差分析根据因素间是否有交互影响而分为无交互影响的和有交互影响的两种情形。进行多因素方差分析从理论和方法上说并无任何困难,但随着因素数的增加,普通的方差分析的复杂性迅速增加,这种复杂性不仅表现在分析计算的反复,也表现在所需实验次数呈现出几何级数的增加上。因此三或三因素以上的方差分析较少用到。

(二)无交互影响的五因素方差分析

采用不重复试验,某一试验结果受到A 和B 两个因素的影响。这两个因素分别可取k 和m 个水平,则双因素方差分析实际上就是要比较因素A 的k 个水平的均值之间是否存在显著差异,B 因素的m 个水平的均值之间是否存在显著差异,检验这两个因素所起的作用有多大,是一个因素在起作用,还是两个因素起作用或者是两个因素的作用都不显著。因而双因素的方差分析问题实际上也是一个假设检验问题。

假定两因素无交互作用,观测变量总的离差平方和就等于

E B A T SS SS SS SS ++=

即总的离差平方和SS T 可分解为各处理内离差平方和SS E 、因素A 不同水平间的离差平方和SS A 和因素B 不同水平间离差平方和SS B 。SS T 自由度为(N -1),SS E 自由度为(k -1)(m -1),SS A 的自由度为(k -1),SS B 自由度为(m -1)。

从方差分解式所得到的SS A 、SS B 和SS E 除以各自的自由度,就得到各自相应的均方差,进而得到无交互影响时双因素方差分析表如表18-6所示。根据方差分析表计算得到F A 和F B 以后,进行显著性水平检验。对于因素A 而言,若F A >F 0.05,则拒绝关于因素A 的原假设,说明因素A 对结果有显著的影响;关于

因素B 的显著检验亦如此。

表18-6 双因素无交互影响的方差分析表

方差

来源

离差 平方和 自由度 均方差 统计检验量F 因素A SS A k -1 1

-=k SS MS A A E A A MS MS F = 因素B SS B m -1 1-=m SS MS B B E

B B MS MS F = 误差E SS E (k -1)( m -1) )

1)(1(--=m k SS MS E E 总方差

SS T N -1

(三)有交互影响的双因素方差分析

假定前面的因素A 与因素B 之间相互独立,不存在相互影响,但有时两个因素会产生交互作用,从而使因素A 的某些水平与因素B 的另一些水平相结合时对结果产生更大的影响。对于有交互作用的两因素之间方差分析的步骤几乎与前一种情形一样,不同的是当两因素之间存在交互作用时,对总离差平方和进行分解时必须考虑两因素的交互作用。

设因素A 有a 个水平,因素B 有b 个水平,试验的重复次数记作n 。设X ijk 为因素A 的第i 个水平,因素B 的第j 个水平下进行第k 次试验的观察值(i =1,2,…a ;j =1,2,…b ;k =1,2,…n )。有交互作用的两因素方差分析的这时总离差平方和可以分解为四项:

SS T =SS A +SS B +SS AB +SS E

SS T 表示总离差平方和,自由度为(N -1),N =abn ;SS A 表示因素A 的离差平方和,自由度为(a -1);SS B 表示因素B 的离差平方和,自由度为(b -1);SS E 表示随机误差的离差平方和,自由度为N -ab =ab (n -1);SS AB 表示因素间交互作用的离差平方和,自由度为(a -1)(b -1)。

从方差分解所得到的SS A 、SS B 、SS AB 和SS E 除以各自的自由度,就得到各自相应的均方差,然后对因素A 、因素B 和因素AB 的交互作用分别作F 检验。进

尔得到有交互影响时双因素方差分析表如表18-7所示。

表18-7 双因素无交互影响的方差分析表

方差

来源

离差 平方和 自由度 均方差 统计检验量F 因素A SS A a -1 1

-=a SS MS A A E A A MS MS F = 因素B SS B b -1 1-=b SS MS B B E

B B MS MS F = A ×B SS AB (a -1)( b -1) )1)(1(--=b a SS MS AB AB E

AB AB MS MS F =

误差E SS E N -ab ab

N SS MS E E -= 总方差

SS T N -1

根据方差分析表得到F A 、F B 、F AB 以后,根据确定的某个显著性水平,分别检验因素A 、因素B 以及因素A ×B 的影响,其步骤与前面一样。

二、实例问题

【例2】为研究不同教法对提高学生体质的影响,分别从4个学校高三男生抽样,进行两种不同教法处理后检测学生的体质状况,采用同一测试方法的测试成绩如表18-8所示。试分析各个学校高三男生的体质成绩是否有差别。

表18-8 4个学校测量的体质成绩

学校

A B C D 处理方法1

9,12,7,5 20,14,18,12 12,7,6,10 23,13,16,21 处理方法2

13,7,10,8 17,10,9,15 11,5,7,6 18,14,19,11

三、SPSS 求解过程

1、根据上表输入数据整理,在建立数据文件时需求定义多个变量,如图18-7、8、9所示,它们是测量编号、体质得分、学校和处理方法。由于要求变量为数值型,因此学校变量定义为数值型,取值范围为1~4,分别代表A、B、C、D4个学校;处理方法变量定义为数值型,取值范围为1~2,分别代表两种处理方法。

图18-7 原始数据的输入整理

图18-8 对学校变量值定义

图18-9 对处理方法变量值定义

2、打开相关数据文件,选择菜单“Anlyze-General Linear Model-Univariate”,图18-10所示,弹出“多因素方差分析(Univariate)”对话框,如图18-11示。

图18-10 多因素方差分析(Univariate)”对话框

图18-11 选择多因素方差分析的变量

3、选择进行多因素方差分析的变量

(1)参与分析的观测变量“Dependent Variable”框:在对话框左侧的列表中选择变量“体质得分”,使之进入“Dependent Variable”框。

(2)“Fixed Factor(s)”框:因素变量。可以选择多个。在对话框左侧的变量列表中选择变量“学校”和“处理方法”,使之进入“Fixed Factor(s)”框。

4、选择建立多因素方差分析的模型。单击“Univariate”对话框中的“Model”按钮,弹出“Univariate:Model”对话框,如图18-12所示。

图18-12 选择建立多因素方差分析的模型

(1)“Full factorial”单选框:饱和模型。对所有因素的主效应及交互效应进行分析,即将观测变量的总离差平方和分解为多因素变量的独立作用部分、多因素变量的交互部分和随机变量影响部分。该项是默认设置。

(2)“Custom”单选钮:进行模型的自定义设置。

本例采用默认设置,采用饱和模型,选择“Full factorial”单选钮。设置完成后,单击返回,返回“多因素方差分析(Univariate)”对话框。

5、设置多因素变量的各组差异比较。单击“多因素方差分析(Univariate)”对话框中的“Contrasts”按钮,弹出“Univariate:Contrasts”对话框,如图18-13所示。本例两个因素变量都采用“Simple”方式比较。

图18-13 设置多因素变量的各组差异比较

(1)“Factors”列表框:列出因素变量及均值比较类型。

(2)“Contrast”下拉框:多因素变量的各组差异比较类型,系统提供了7种类型,本例两个因素变量都采用“Simple”方式比较,以第一个或最后一个水平的观察变量均值为标准,比较中水平上观察变量的均值是否有显著性差异。

(3)“Change”按钮:改变多因素变量的各组差异比较类型。如果要对因素变量的均值比较类型进行修改,选中一个因素变量,在下面的“Contrast”下拉框中选择比较类型,再单击右侧的“Change”按钮保存修改。此时“Factors”列表框中变量后面标识的均值比较类型将发生相应的变化。

(4)设置完成后,单击“Univariate”对话框中的“Continue”按钮,返回“Univariate”主对话框。

6、设置以图形方式展现多因素之间是否存在交互作用。单击“Plots”按钮,弹出“Univariate:Profile Plots”对话框,如图18-14所示。如果各个因素没有交互作用,则各个水平对应的图形应该近似于平行。

图18-14 设置以图形方式展现

(1)“Factors”列表框:显示参与方差分析的各因素。

(2)“Horizontal Axis”编辑框:设置断面图的水平轴变量,即某一因素。

(3)‘Separate Lines”编辑框:设置分组曲线变量,对应第二个因素。

(4)“Separate Plots”编辑框:设置分组图的变量,对应第二个因素。

(5)“Plots”列表框:显示需要制图输出的各个断面图。

本例要求以图形显示两个变量的交互作用,因此选择变量“学校“进入“Horizontal Axis”编辑框,选择变量“处理方法”进入“Separace Lines”编辑框。然后单击对话框中间的“Add”按钮,设置进入“Plots”框。使用上述方法可以选择输出多个断面图。

设置完成后,单击“Continue”按钮,返回到“Univariate”对话框。

7、设置均值多重比较类型。单击“Post Hoc”按钮,弹出“Univariate:Post Hoc Multiple Comparisons gor Observed Means”对话框,如图18-15

所示。

图18-15 设置均值多重比较类型(a )

图18-15 设置均值多重比较类型(b )

(1)“Factor (s )”列表框:参加方差分析的因素列表。

(2)“Post Hoc Test for ”列表框:进行均值多重比较的因素。本例只将因素“学校”选入“Post Hoc Test for ”列表框,进行多重比较分析。

(3)“Equar Variances Assumed ”复选框组:当各组方差齐性时的两两均值比较方法,共有14种,本例选LSD 法进行两两比较(图18-16)。

图18-16 选择均值多重比较方法

(4)“Equar Variances Not Assumed

”得选框组:当各组方差不等时的两两q 检验

均值比较方法,共有4种。本例忽略此选项。

8、选择需要保存到原数据文件的统计量“Save”。本例忽略此项。返回“Univariate”对话框(图18-17)。

图18-17 选择需保存到原始数据文件的统计量

9、设置输出到结果窗口的选项。单击“options”按钮,弹出“Univariate:Options”对话框,如图18-18所示。

图18-18 设置输出到结果窗口的选项

(1)“Factor(s)and Factor Interactions”列表框:显示参与方差分析的各因素以及交互作用项。

(2)“Display Means for”列表框:显示均值的项目,可以从左侧的“Factor (s)and Factor Interactions”列表框中选择。

(3)“Display”复选框:要输出显示的各种统计量。包括描述统计量、效应量估计、观测功效、参数估计、比较系数矩阵、Spread-level图、残差图等多

个选项。方差分析的前提是因素各水平下的总体服从方差相等的正态分布。因此本例选择输出方差齐性检验,还要求输出描述统计量。

(4)设置显著水平,默认为0.05。

(5)完成设置后,单击“Continue”按钮,返回“Univariate”对话框。

10、完成所有设置无误后,单击“OK”按钮,执行多因素方差分析,得到输出结果。

四、结果解释

1、表18-9为两个因素不同水平上的样品数统计。从表中可以看出,因素学校在4个水平上的样品数都为8,因素处理方法在两个水平上的样品数都为16。

表18-9 样本量统计描述

2、表18-10为两个因素不同水平上的一些基本统计量,包括均值、标准差和样品数。

表18-10 两因素不同水平的基本描述

3、表18-11为方差齐性检验结果。从表中可看出,输出的相伴概率为0.384大于显著水平0.05,因此可以认为各组的总体方差相等,满足方差分析前提条件。

表18-11 方差齐性检验

4、表18-12为方差分析表。从表中看出,因素学校的离差平方和为441.344,均方为147.115,计算的F值为12.621,相伴概率为0.000,因素处理方法的离差平方和为19.531,均方为19.531,计算的F值为1.676,相伴概率为0.208,从而可知因素学校对体质成绩影响显著,而因素处理方法对体质成绩影响不显著;两因素的交互作用没有对结果造成显著影响。

表18-12 方差分析表

表18-13 学校均值比较结果

5、表18-13给出了因素学校的均值比较结果。以第4组作为比较参照,第1组和第4组的相伴概率为0.000,远小于0.05,因此第1组和第4组的均值差异显著;第2组和第4组的相伴概率为0.156,大于0.05,因此第1组和第4组的均值没有显著差异;第3组和第4组的相伴概率为0.000,远小于0.05,因此第3组和第4组的均值差异显著。

6、表18-14为因素处理方法的均值比较结果。只有两组,第2组作为比较参照,第1组和第2组的相伴概率为0.208,大于0.05,因此第1组和第2组的均值没有显著差异。

7、表18-15是因素学校的LSD法多重比较的结果。可以看出,学校A和学校C的相伴概率0.613,以及学校B和学校D的相伴概率0.156都大于0.05,说明学校A和学校C以及学校B和学校D之间没有显著差异,而其余两组之间的相伴概率都小于0.05,它们之间存在显著差异。

表18-14 处理方法均值比较结果

表18-15 学校的LSD法多重比较的结果

8、图18-19为两因素交互影响折线图,从图中可以看出两条折线近似平行,说明两因素交互作用不显著。

图18-19 两因素交互影响折线图

四、提示

SPSS多因素方差分析可通过Univariate过程完成,如果因素变量只有一个,此时调用的Univariate过程实质上就是单因素方差分析。

与单因素方差分析相比,交互作用是多因素方差分析中新概念之一。当一个因素的效应明显地依赖于其他因素的水平时,称这些因素间有交互效应。在多因素方差分析的过程中,对交互作用的有无也可进行统计检验。

方差分析的前提是因素各水平下的总体服从方差相等的正态分布,因此执行Univariate过程一般要求输出方差齐性检验结果。

方差分析和试验设计

6方差分析与试验设计 在研究一个或多个分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中主要方法之一。检验多个总体均值是否相等的统计方法。 所要检验的对象称为因素。因素的不同表现称为水平。每个因子水平下得到的样本数据称为观测值。 随机误差:在同一行业(同一总体)下,样本的各观测值是不同的。抽样随机性造成。 系统误差:在不同一行业(不同一总体)下,样本的各观测值也是不同的。抽样随机性和行业本身造成的。 组内误差:衡量因素在同一行业(同一总体)下样本数据的误差。只包含随机误差。 组间误差:衡量因素在不同一行业(不同一总体)下样本数据的误差。包含随机误差、系统误差。 方差分析的三大假设: 每个总体服从正态分布; 每个总体的方差必须相同; 观测值是独立的; 单因素方差分析(F分布) 数据结构:表示第i个水平(总体)的第j个的观测值。(i列j行)分析步骤: 1提出假设。自变量对因变量没有显著影响 不完全相等自变量对因变量有显著影响 2构造检验的统计量 计算因素各水平的均值(各水平样本均值) 计算全部观测值的总均值(总体均值) 计算误差平方和: 总误差平方和SST:全部观测值与总平均值得误差平方和。 水平项误差平方和SSA:各组平均值与总平均值得误差平方和。组间平方和。 误差项平方和SSE:各样本数据与其组平均值误差的平方和。组内平方和。 SST=SSA+SSE

A B C D E F G 1 误差来源 平方和自由度均方F 值P 值 F 临界值2SS df MS 3组间(因素 来源)SSA k-1MSA MSA/MSE 4组内(误差)SSE n-k MSE 5 总和 SST n-1 计算统计量 各平方和除以它们对应的自由度,这一结果称为均方。 SST 的自由度为(n-1),其中n 为全部观测值的个数。 SSA 的自由度为(k-1),其中k 为因素水平的个数。(组数-1) SSE 的自由度为(n-k )。 SSA 的均方(组间均方)为 SSE 的均方(组内均方)为 3统计决策 在给定的显著性水平α下,查表得临界值 若,有显著影响; 若,无显著影响; 4方差分析表

方差分析 线性回归

1 线性回归 1.1 原理分析 要研究最大积雪深度x与灌溉面积y之间的关系,测试得到近10年的数据如下表: 使用线性回归的方法可以估计x与y之间的线性关系。 线性回归方程式: 对应的估计方程式为 线性回归完成的任务是,依据观测数据集(x1,y1),(x2,y2),...,(xn,yn)使用线性拟合估计回归方程中的参数a和b。a,b都为估计结果,原方程中的真实值一般用α和β表示。 为什么要做这种拟合呢?

答案是:为了预测。比如根据前期的股票数据拟合得到股票的变化趋势(当然股票的变化可就不是这么简单的线性关系了)。 线性回归的拟合过程使用最小二乘法, 最小二乘法的原理是:选择a,b的值,使得残差的平方和最小。 为什么是平方和最小,不是绝对值的和?答案是,绝对值也可以,但是,绝对值进行代数运算没有平方那样的方便,4次方又显得太复杂,数学中这种“转化化归”的思路表现得是那么的优美! 残差平方和Q, 求最小,方法有很多。代数方法是求导,还有一些运筹学优化的方法(梯度下降、牛顿法),这里只需要使用求导就OK了,

为表示方便,引入一些符号, 最终估计参数a与b的结果是: 自此,针对前面的例子,只要将观测数据带入上面表达式即可计算得到拟合之后的a和b。不妨试一试? 从线性函数的角度,b表示的拟合直线的斜率,不考虑数学的严谨性,从应用的角度,结果的b可以看成是离散点的斜率,表示变化趋势,b的绝对值越大,表示数据的变化越快。 线性回归的估计方法存在误差,误差的大小通过Q衡量。 1.2 误差分析 考虑获取观测数据的实验中存在其它的影响因素,将这些因素全部考虑到 e~N(0,δ^2)中,回归方程重写为 y = a + bx + e 由此计算估计量a与b的方差结果为,

析因设计

常用实验设计方法(三) 六.析因设计(f a c t o r i a l d e s i g n) ◆析因设计是一种多因素试验设计。 ◆可将两个或多个因素的各个水平进行排列组合,交叉分组进行全面实验。 ◆总的实验方案(组合)是各因素水平的乘积。 例如: 2×2析因设计(两个因素,每个因素均为2个水平,常可写成22析因设计) A因素(A1、A2)和B因素(B1、B2)共4种实验方案或组合(A1B1、A1B2、A2B1、A2B2) 3×3析因设计(两个因素,每个因素均为3个水平,常可写成23析因设计) A因素(A1、A2、A3)和B因素(B1、B2、B3)共9种组合 (A1B1、A1B2、A1B3、A2B1、A2B2A2B3、A3B1、A3B2A3B3)2×3×3析因设计(三个因素,一个因素为2个水平,余均为3个水平)共18种组合 1.特点 ①研究的因素个数m≥2,各因素的水平数≥2; ②各因素在实验中同时实施且所处的地位基本平等。 ③每个因素水平相互组合的实验方案,至少进行2次及以上独立重复实验。 ④因素间存在交互效应。例如,一级(两个因素间)或二级交互(三个因素间)效应。 ⑤统计学分析时,各因素及交互项所用误差项是相同的。 ◆优点: ?可分析各因素的主效应(m a i n e f f e c t s)(某因素各水平间的平均效应差异) ?因素间的交互效应(i n t e r a c t i o n)(一个因素的水平改变会影响另一个因素的效应) ?寻找最优方案或最佳组合 ?可允许数据缺失(完全随机分配情况下) ◆缺点: ?当因素较多或水平数较多时,所需实验次数过多。 ?一般来说,因素数最好不要多于6个,水平数亦不要过多,一般为2或3个。

方差分析与试验设计

第10章 方差分析与试验设计 三、选择题 1. C 2. B 3. A 4. B 5. C 1.方差分析的主要目的是判断 ( )。 A. 各总体是否存在方差 B. 各样本数据之间是否有显著差异 C. 分类型自变量对数值型因变量的影响是否显著 D. 分类型因变量对数值型自变量的影响是否显著 2.在方差分析中,检验统计量F是 ( )。 A. 组间平方和除以组内平方和 B. 组间均方除以组内均方 C. 组间平方除以总平方和 D. 组间均方除以总均方 3.在方差分析中,某一水平下样本数据之间的误差称为 ( )。 A. 随机误差 B. 非随机误差 C. 系统误差 D. 非系统误差 4.在方差分析中,衡量不同水平下样本数据之间的误差称为 ( )。 A. 组内误差 B. 组间误差 C. 组内平方 D. 组间平方 5.组间误差是衡量不同水平下各样本数据之间的误差,它 ( )。 A. 只包括随机误差 B. 只包括系统误差 C. 既包括随机误差,也包括系统误差 D. 有时包括随机误差,有时包括系统误差 6. A 7. D 8. D 9. A 10.A 6.组内误差是衡量某一水平下样本数据之间的误差,它 ( )。 A. 只包括随机误差 B. 只包括系统误差 C. 既包括随机误差,也包括系统误差 D. 有时包括随机误差,有时包括系统误差 7.在下面的假定中,哪一个不属于方差分析中的假定 ( )。 A. 每个总体都服从正态分布 B. 各总体的方差相等 C. 观测值是独立的 D. 各总体的方差等于0 8.在方差分析中,所提出的原假设是210:μμ=H = ···=k μ,备择假设是( ) A. ≠≠H 211:μμ···k μ≠ B. >>H 211:μμ···k μ> C. <

正交试验设计及其方差分析

第三节正交试验设计及其方差分析 在工农业生产和科学实验中,为改革旧工艺,寻求最优生产条件等,经常要做许多试验,而影响这些试验结果的因素很多,我们把含有两个以上因素的试验称为多因素试验.前两节讨论的单因素试验和双因素试验均属于全面试验(即每一个因素的各种水平的相互搭配都要进行试验),多因素试验由于要考虑的因素较多,当每个因素的水平数较大时,若进行全面试验,则试验次数将会更大.因此,对于多因素试验,存在一个如何安排好试验的问题.正交试验设计是研究和处理多因素试验的一种科学方法,它利用一套现存规格化的表——正交表,来安排试验,通过少量的试验,获得满意的试验结果. 1.正交试验设计的基本方法 正交试验设计包含两个内容:(1)怎样安排试验方案;(2)如何分析试验结果.先介绍正交表. 正交表是预先编制好的一种表格.比如表9-17即为正交表L4(23),其中字母L表示正交,它的3个数字有3种不同的含义: (1) L4(23)表的结构:有4行、3列,表中出现2个反映水平的数码1,2. 列数 ↓ L4 (23) ↑↑ 行数水平数 (2)L4(23)表的用法:做4次试验,最多可安排2水平的因素3个. 最多能安排的因素数 ↓ L4 (23) ↑↑ 试验次数水平数 (3) L4(23)表的效率:3个2水平的因素.它的全面试验数为23=8次,使用正交表只需从8次试验中选出4次来做试验,效率是高的. L4 (23) ↑↑ 实际试验数理论上的试验数 正交表的特点: (1)表中任一列,不同数字出现的次数相同.如正交表L4(23)中,数字1,2在每列中均出现2次. (2)表中任两列,其横向形成的有序数对出现的次数相同.如表L4(23)中任意两列,数字1,2间的搭配是均衡的.

2×2析因设计资料的方差分析

2×2析因设计资料的方差分析 用A药和B药治疗高胆固醇患者,并考虑是否患糖尿病对结果的影响,故把高胆固醇患者分成糖尿病且高胆固醇组和单纯高胆固醇组,每一种病情组又随机分为两组:一组用A药,一组用B药,经过一个疗程后,观察患者的总胆固醇下降的幅度,具体数据列表如下,对该资料做统计分析。 不同病情不同疗法治疗高胆固醇患者的总胆固醇下降值(mmol/L) 本例中,以总胆固醇下降幅度为疗效指标,以高血脂患者为研究对象,主要的研究问题是评价A药和B药降低总胆固醇的幅度,由于该研究考虑了研究对象是否患有糖尿病的因素,所以要回答两个药的疗效差别如何。根据最终结果,研究者有时可以直接称A药疗效优于B药,或者B药疗效优于A药,或者两个药疗效相同;但研究者往往不能这样简单地评价两个药的疗效,因为最终结果往往有多种可能的答案,可以归纳为下列三大类的情况。 1)A药和B药的疗效相同或不同,但两个药的疗效差异与是否患糖尿病无关。 2)无糖尿病的患者而言,两个药的疗效相同,对于糖尿病患者而言,两种药物的疗效不同。 3)对于糖尿病患者而言,两种药物的疗效相同,无糖尿病的患者而言,两个药的疗效不同。 如果资料符合方差分析的条件,可以用两因素方差分析进行统计分析,方差分析中的交互作用概念正是反映了上述第2种和第3种答案,即:交互作用是指某个因素对效应指标的作用与另一个因素处于何种水平状态有关(本例中治疗方案因素对疗效的作用与患者是否患糖尿病有关)。因此如果本例中治疗方案因素对疗效的作用与患者是否患糖尿病无关,则称治疗方案与是否患糖尿病对效应指标(降低总胆固醇)没有交互作用。 先考虑无交互作用的方差分析模型如下: 糖尿病的高血脂患者用B药治疗一个疗程后,总胆固醇平均下降μ(mmol/L), 糖尿病的高血脂患者用A药治疗一个疗程后,总胆固醇平均下降μ+β1(mmol/L),即糖尿病的高血脂患者用A药和用B药治疗一个疗程,两种药的疗效:总胆固醇下降幅度的平均差异为β1(mmol/L); 无糖尿病的高血脂患者用B药治疗一个疗程后,总胆固醇平均下降μ+β2(mmol/L),即同样用B药,有糖尿病的高血脂患者和无糖尿病的高血脂患者的总胆固醇下降幅度平均相差β2(mmol/L); 无糖尿病的高血脂患者用A药治疗一个疗程后,总胆固醇平均下降μ+β1+β2(mmol/L),即同样用A药,有糖尿病的高血脂患者和无糖尿病的高血脂患者的总胆固醇下降幅度平均相差β2(mmol/L)。

第9章方差分析思考与练习-带答案

第九章方差分析 【思考与练习】 一、思考题 1. 方差分析的基本思想及其应用条件是什么? 2. 在完全随机设计方差分析中SS SS SS 、、各表示什么含义? 总组间组内 3. 什么是交互效应?请举例说明。 4. 重复测量资料具有何种特点? 5. 为什么总的方差分析的结果为拒绝原假设时,若想进一步了解两两之间的差别需要进行多重比较? 二、最佳选择题 1. 方差分析的基本思想为 A. 组间均方大于组内均方 B. 误差均方必然小于组间均方 C. 总变异及其自由度按设计可以分解成几种不同来源 D. 组内方差显著大于组间方差时,该因素对所考察指标的影响显著 E. 组间方差显著大于组内方差时,该因素对所考察指标的影响显著

3. 完全随机设计的方差分析中,下列式子正确的是 4. 总的方差分析结果有P<0.05,则结论应为 A. 各样本均数全相等 B. 各总体均数全相等 C. 各样本均数不全相等 D. 各总体均数全不相等 E. 至少有两个总体均数不等 5. 对有k 个处理组,b 个随机区组的资料进行双因素方差分析,其误差的自由度为 A. kb k b -- B. 1kb k b --- C. 2kb k b --- D. 1kb k b --+ E. 2kb k b --+ 6. 2×2析因设计资料的方差分析中,总变异可分解为 A. MS MS MS =+B A 总 B. MS MS MS =+B 总误差 C. SS SS SS =+B 总误差 D. SS SS SS SS =++B A 总误差 E. SS SS SS SS SS =+++B A AB 总误差 7. 观察6只狗服药后不同时间点(2小时、4小时、8小时和24小时)血药浓度的变化,本试验应选用的统计分析方法是 A. 析因设计的方差分析

一元线性回归,方差分析,显著性分析

一元线性回归分析及方差分析与显著性检验 某位移传感器的位移x 与输出电压y 的一组观测值如下:(单位略) 设x 无误差,求y 对x 的线性关系式,并进行方差分析与显著性检验。 (附:F 0。10(1,4)=,F 0。05(1,4)=,F 0。01(1,4)=) 回归分析是研究变量之间相关关系的一种统计推断法。 一. 一元线性回归的数学模型 在一元线性回归中,有两个变量,其中 x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系: (1) / 通常认为 且假设与x 无关。将观测数据 (i=1,……,n)代入(1) 再注意样本为简单随机样本得: (2) 称(1)或(2)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。 对其进行统计分析称为一元线性回归分析。 模型(2)中 EY= ,若记 y=E(Y),则 y=a+bx,就是所谓的一元线性回归方程, 其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称 a 、b 为回归系数。 设得到的回归方程 bx b y +=0? 残差方程为N t bx b y y y v t t t i ,,2,1,?0 =--=-= 根据最小二乘原理可求得回归系数b 0和b 。 对照第五章最小二乘法的矩阵形式,令 ¥ ?????? ? ??=??? ? ??=??? ???? ??=??????? ??=N N N v v v V b b b x x x X y y y Y 2102121?111 则误差方程的矩阵形式为

第四节析因设计和方差分析

第四节析因设计与方差分析 1. 基本概念 完全随机设计(单因素) 随机区组设计(两因素, 无重复) 拉丁方设计(三因素, 无重复) 析因设计(两因素以上, 至少重复2次以上) 析因设计的意义 在评价药物疗效时,除需知道A药和B药各剂量的疗效外(主效应),还需知道两种药同时使用的协同疗效。析因设计及相应的方差分析能分析药物的单独效应、主效应和交互效应。 例:

A因素食物中蛋白含量; B因素食物中脂肪含量 B A 平均a2-a1 a1 a2 b1 30 32 31 2 b2 36 44 40 8 平均33 38 35.5 5 b2-b1 6 12 9 (1)单独效应: 在每个B水平, A的效应。或在每个A水平,B

的效应。 (2)主效应:某因素各水平的平均差别。 (3)交互效应:某因素各水平的单独效应随另一因素水平变化而变化,则称两因素间存在交互效应。如果)()()(000μμμμμμ-+-≠-b a ab ,存在交互效应。 如果)()()(000μμμμμμ-+->-b a ab ,协同作用。 如果)()()(000μμμμμμ-+-<-b a ab ,拮抗作用。 25 27 29 31 33 35 37 39 41 43 45 a1 a2 25 27 29 31 33353739414345 a1 a2

如果不存在交互效应,则只需考虑各因素的主效应。 在方差分析中,如果存在交互效应,解释结果时,要逐一分析各因素的单独效应,找出最优搭配。 在两因素析因设计时,只需考虑一阶交互效应。三因素以上时,除一阶交互效应外,还需考虑二阶、三阶等高阶交互效应,解释将更复杂。 析因设计的优点:用相对较小样本,获取更多的信息,特别是交互效应分析。 析因设计的缺点:当因素增加时,实验组数呈几何倍数增加。实际工作中部分交互效应,特别是高阶交互效应可以根据临床知识排除,这时可选用正交设计。 2. 析因设计与结果的方差分析

一元线性回归-方差分析-显著性分析

一元线性回归分析及方差分析与显著性检验 某位移传感器的位移x 与输出电压y 的一组观测值如下:(单位略) 设x 无误差,求y 对x 的线性关系式,并进行方差分析与显著性检验。 (附:F 0。10(1,4)=4.54,F 0。05(1,4)=7.71,F 0。01(1,4)=21.2) 回归分析是研究变量之间相关关系的一种统计推断法。 一. 一元线性回归的数学模型 在一元线性回归中,有两个变量,其中 x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系: y =a +b ?x +ε (1) 通常认为ε~N (0,δ2)且假设δ2与x 无关。将观测数据(x i ,y i ) (i=1,……,n)代入(1)再注意样本为简单随机样本得: {y i =a +b ?x i +εi ε1?εn 独立同分布N (0,σ2) (2) 称(1)或(2)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。 对其进行统计分析称为一元线性回归分析。 模型(2)中 EY= a +b ?x ,若记 y=E(Y),则 y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称 a 、b 为回归系数。 设得到的回归方程 根据最小二乘原理可求得回归系数b 0和b 。 对照第五章最小二乘法的矩阵形式,令 ?????? ? ??=? ?? ? ??=?????? ? ??=??? ???? ??=v v v V b b b x x x X y y y Y 2102121?111 则误差方程的矩阵形式为

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe 法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe 法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题:

t检验与方差分析

第六章数值变量资料的统计分析 数值变量资料又称计量资料,通常是指每个观察单位某项指标量的大小,一般具有计量单位。这类资料按分析的内容一般可分为两种:一种是比较几种处理之间的效应,简单地讲就是比较各处理组观察值均数、方差的大小;另一种是寻找指标间的关系,即某个(或某些)指标的取值是否受其它指标的影响。本章主要介绍不同设计类型的数值变量资料的比较。 §6.1 样本均数与总体均数比较的 t 检验 t检验亦称 student's t 检验,主要用于下列三种情况:(1)样本均数与总体均数比较;(2)配对数值变量资料的比较;(3)两样本均数的比较。 Stata用于样本均数与总体均数比较的 t 检验的命令是: ttest 变量名= #val 这里,#val 表示总体均数。 命令中可以选用 if 语句和 in 语句对要分析的内容加一些条件限制。 对已知样本含量、均数和标准差的资料,欲将其与某总体均数进行比较,Stata 还提供了更为简洁的命令是: ttesti #obs #mean #sd #val 这里,#obs 表示样本含量,#mean 表示样本均数,#sd 表示样本标准差, #val 表示总体均数。 §6.2 两样本均数比较的t检验 一、配对设计t检验 医学研究中常将受试对象配成对子,对每对中的两个受试对象分别给予两种不同的处理,观察两种处理的结果是否一致,称为配对(设计)研究。有时以同一个受试对象先后给予两种不同的处理,观察两种处理的结果是否相同,这种配对称为自身配对。配对设计的优点是能消除或部分消除个体间的差异,使比较的结果更能真实地反映处理的效应。 配对t检验首先计算每对结果之差值,再将差值均数与0作比较。如两种处理的效应相同,则差值与0没有显著性差异。 检验假设 H0为:两种处理的效应是相同,或总体差值均数为 0。 stata用于配对样本t检验的命令是: Ttest变量1=变量2 这里,这里“变量 1”和“变量 2”是成对输入的配对样本。 ttest 命令容许使用[if 表达式]和[in范围]条件限制。 或者: gen d=0 ttest d=0 二、成组设计t检验

第八章方差分析与回归分析

第八章 方差分析与回归分析 一、教材说明 本章内容包括:方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容. 1、教学目的与教学要求 (1)了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题. (2)了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,会解决简单的实际问题. (3)熟练掌握Hartley 检验,Bartlett 检验以及修正的Bartlett 检验三种检验方法,会解决简单的实际问题. (4)理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析,会解决简单的实际问题. 2、本章的重点与难点 本章的重点是平方和的分解,检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握,回归系数的估计方法,回归方程的显著性检验,难点是检验方法和参数估计,重复数相等与不相等场合的方法. 实际问题的检验,回归方程的显著性检验. 二、教学内容 本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容. § 方差分析 教学目的:了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会 解决简单的实际问题. 教学重点:平方和的分解,检验方法和参数估计 教学难点:检验方法和参数估计 教学内容: 本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形. 问题的提出 在实际工作中经常会遇到多个总体均值的比较问题,处理这类问题通常采用方差分析方法. 例 单因子方差分析的统计模型 在例中,我们只考察一个因子,称为单因子试验.记因子为A ,设其有r 个水平,记为 1r A , ,A ,在每一水平下考察的指标可看做一个总体,故有r 个总体,假定 (1)每一总体均为正态总体,记为2 i i N(,)μσ,i 1,2,,r =; (2)各总体方差相同,即22 2212r σσσσ== ==

第9章方差分析与回归分析习题答案

第九章 方差分析与回归分析习题参考答案 1. 为研究不同品种对某种果树产量的影响,进行试验,得试验结果(产量)如下表,试分析果树品种对产量是否有显著影响. (0.05(2,9) 4.26F =,0.01(2,9) 8.02F =) 34 2 11 1310ij i j x ===∑∑ 【 解 : r=3, 12 444n n 321=++=++=n n , T=120 ,120012 1202 2===n T C 3 4 2 21113101200110(1)1110110T ij T i j SS x C S n s ===-=-==-=?=∑∑或S 322.1112721200724(31)429724A i A A i SS T C S s ==-=-==-=??=∑或S 38 72110=-=-=A T e SS SS SS 计算统计值 722 8.53, 389 A A A e e SS f F SS f = =≈…… 方差分析表 方差来源 、 平方和 自由度 均方 F 值 临界值 显著性 品种A ~ 36 0.050.01(2,9) 4.26(2,9)8.02 F F == ** 误差 ] 总 计 结论:由于0.018.53(2,9)8.02, A F F ≈>=故果树品种对产量有特别显著影响. 品种 试验结果 行和??=i x T i 行均值.i x A 1 10 7 、 13 10 40 10 A 2 12 13 15 12 52 ? 13 A 3 8 4 7 9 28 7

2. ^ ..180x = 43 2 11 2804ij i j x ===∑∑ 解:22..4,3,12,180122700l m n lm C x n ======= 4 3 2 211 28042700104(1)119.45 T ij T i j S x C S n s ===-=-==-=?∑∑或 : 422 .1 12790270090(1)331090 3A i A A i S x C S m l s ==-=-==-≈??=∑或322 .1 12710.5270010.5(1)8 1.312510.5 4B j B B j S x C S l m s ==-=-==-≈?=∑或1049010.5 3.5 e T A B S S S S =--=--= 计算统计值 90310.52 51.43,93.56 3.56 A A B B A B e e e e S f S f F F S f S f = =≈==≈ 方差来源 平方和 自由度 F 值 临界值 显著性 推进器A 【 0.050.01(3,6) 4.76(3,6)9.78F F == 燃料B 0.050.01(2,6) 5.14 (2,6)10.92 F F == · 误差 总 计 结论: 由以上方差分析知,进器对火箭的射程有特别显著影响;燃料对火箭的射程有显著影响. 3.为了研究某商品的需求量Y 与价格x 之间的关系,收集到下列10对数据: . 价格x i 1 2 3 4 4 ] 5 需求量y i 10 8 8 7 6 4 ^ 2 1 31,58,147,112,410.5,i i i i i i x y x y x y =====(1)求需求量Y 与价格x 之间 试验 结果 》 燃料B B 1 B 2 B 3 .i x .i x 推进器 A 《 A 1 14 13 12 39 13 A 2 18 16 ^ 14 48 16 A 3 13 12 11 36 12 A 4 20 18 19 57 19 .j x 65 59 % 56 180 .j x 14 15

方差分析与回归分析习题答案完整版

方差分析与回归分析习 题答案 HUA system office room 【HUA16H-TTMS2A-HUAS8Q8-HUAH1688】

第九章 方差分析与回归分析习题参考答案 1. 为研究不同品种对某种果树产量的影响,进行试验,得试验结果(产量)如下表,试分析果树品种对产量是否有显着影响. (0.05(2,9) 4.26F =,0.01(2,9)8.02F =) 解:r=3, 12444n n 321=++=++=n n , T=120 ,120012 1202 2===n T C 计算统计值?7228.53, 389 A A A e e SS f F SS f = =≈…… 方差分析表

结论:由于0.018.53(2,9)8.02, A F F ≈>=故果树品种对产量有特别显着影响. 2700 10.52 93.56 ≈

结论: 由以上方差分析知,进器对火箭的射程有特别显着影响;燃料对火箭的射程有显着影响. 3.为了研究某商品的需求量Y与价格x之间的关系,收集到下列10对数据: 22 31,58,147,112,410.5, i i i i i i x y x y x y ===== ∑∑∑∑∑(1)求需求量Y与价格x之间的线性回归方程; (2)计算样本相关系数; (3)用F检验法作线性回归关系显着性检验. 解:引入记号10, 3.1, 5.8 n x y === ∴需求量Y与价格x之间的线性回归方程为 (2)样本相关系数 32.8 0.9556 34.3248 l r - ==≈≈-

在0H 成立的条件下,取统计量~(1,2)R e F F n S = - 计算统计值 2 2(32.8)15.967.66, 74.167.66 6.44 R xy xx e yy R S l l S l S ==-≈=-≈-= 故需求量Y 与价格x 之间的线性回归关系特别显着. 4. 随机调查10个城市居民的家庭平均收入(x)与电器用电支出(y)情况得数据(单位:千元)如下: (1) 求电器用电支出y 与家庭平均收入x 之间的线性回归方程; (2) 计算样本相关系数; (3) 作线性回归关系显着性检验; (4) 若线性回归关系显着,求x =25时, y 的置信度为0.95的预测区间. 解:引入记号 10, 27, 1.9n x y === ∴电器用电支出y 与家庭平均收入x 之间的线性回归方程为 (2)样本相关系数 0.9845l r = = ≈

第九章 方差分析

第九章方差分析 在生产过程和科学实验中,我们经常遇到这样的问题:影响产品产量、质量的因素很多.例如,在化工生产中,影响结果的因素有:配方、设备、温度、压力、催化剂、操作人员等.我们需要通过观察或试验来判断哪些因素对产品的产量、质量有显著的影响.方差分析(Analysis of variance)就是用来解决这类问题的一种有效方法.它是在20世纪20年代由英国统计学家费舍尔首先使用到农业试验上去的.后来发现这种方法的应用范围十分广阔,可以成功地应用在试验工作的很多方面. 第一节单因素试验的方差分析 在试验中,我们将要考察的指标称为试验指标,影响试验指标的条件称为因素.因素可分为两类,一类是人们可以控制的;一类是人们不能控制的.例如,原料成分、反应温度、溶液浓度等是可以控制的,而测量误差、气象条件等一般是难以控制的.以下我们所说的因素都是可控因素,因素所处的状态称为该因素的水平.如果在一项试验中只有一个因素在改变,这样的试验称为单因素试验,如果多于一个因素在改变,就称为多因素试验. 本节通过实例来讨论单因素试验. 1.数学模型 例9.1某试验室对钢锭模进行选材试验.其方法是将试件加热到700℃后,投入到20℃的水中急冷,这样反复进行到试件断裂为止,试验次数越多,试件质量越好.试验结果如表9-1. 表9-1 试验的目的是确定4种生铁试件的抗热疲劳性能是否有显著差异. 这里,试验的指标是钢锭模的热疲劳值,钢锭模的材质是因素,4种不同的材质表示钢锭模的4个水平,这项试验叫做4水平单因素试验. 例9.2考察一种人造纤维在不同温度的水中浸泡后的缩水率,在40℃,50℃, (90) 的水中分别进行4次试验.得到该种纤维在每次试验中的缩水率如表92.试问浸泡水的温度对缩水率有无显著的影响?

线性回归分析和方差分析报告

线性回归分析和方差分析报告 信计12 徐文豪 2110902039 本报告以教材第二章课后习题2.4和第三章课后习题3.6为主体,给出对应的解答、sas 代码和结果分析。 2.4 某公司管理人员为了了解某化妆品在一个城市的月销售量Y (单位:箱)与该城市中适合使用该化妆品的人数1X (单位:前人)以及他们人均月收入2X (单位:元)之间的关系,在某个月中对15个城市做了调查,得上述各量的观测值如下表所示: 162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 265 3782 81 98 3008 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605 假设Y 与1X ,2X 之间满足线性回归关系 01122i i i i y x x βββε=+++,1,2,,15i = 其中(1,2,15)i i ε=独立通分布于2(0,)N σ。 (1)求回归系数012,,βββ的最小二乘估计和误差方差2σ的估计,写出回归方程并对回归系数作解释。 解:首先将数据导入sas ,sas 语句如下: data sale; input y x1 x2; cards ; 162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 265 3782 81 98 3008 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605 ; run ; 然后调用reg 过程,sas 语句如下:

医学统计学选择(全部答案-仅供参考)

《医学统计学》第二版(七年制临床医学用) (一)最佳选择题 1.描述一组偏态分布资料的变异度,以()指标较好。 A.全距 B.标准差 C.变异系数 D. |四分位数间距 E.方差 2.用均数和标准差可以全面描述()资料的特征。 A.正偏态分布 B.负偏态分布 C.正态分布 D.对称分布 E.对数正态分布 3.各观察值均加(或 同一数后()。 减) A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 E.以上都不对 4. 比较身高和体重两组数据变异度大小宜采用() A. 变异系数 B. 方差 C. 极差 D. 标准差 E.四分位数间距 5. 偏态分布宜用()描述其分布的集中趋势。 A. 算术均数 B. 标准差 C. 中位数 D. 四分位数间距

E.方差

6.各观察值同乘以一个不等于0的常数后,()不变 A.算术均数C.几何均数 B. D. 标准差 中位数 E.变异系数 7.()分布的资料,均数等于中位数。 A.对数正态 B.正偏态 C.负偏态 D.偏态 E.正态 8.对数正态分布是种()分布。(说明:设X变量经Y=g X变换后服从正态分布,问X变量属何种分布?) A.正态 B.近似正态 C.左偏态 D.右偏态 E.对称 9. 最小组段无下限或最大组段无上限的频数分布资料,可用()描述其集中趋势。 A. 均数 B. 标准差 C. 中位数 D. 四分位数间距 E.几何均数 10. 血清学滴度资料最常用来表示其平均水平的指标是()。 A. 算术平均数 B. 中位数 C. 几何均数 D. 变异系数 E.标准差

11. ()小,表示用该样本均数估计总体均数的可靠性大。 A. CV B. S C. x D. R E. 四分位数间距 12. 两样本均数比较的t检验,差别有统计学意义时,P越小,说明()。 A. 两样本均数差别越大 B. 两总体均数差别越大 D. 越有理由认为两样本均数不同 E. 越有理由认为两总体均数相同 13. 甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得X1和S2;X2和S2,则理论上()。 A. X1X2 B. S2S; C. 作两样本均数比较的t检验,必然得出无统计学意义的结论 D. 作两样本方差比较的F检验,必然方差齐 E. 由甲、乙两样本均数之差求出的总体均数95%信区间,很可能包括0 14. 在参数未知的正态总体中随机抽样,X | ()的概率为5% A. 1.96 B. 1.96 C. 2.58 D. t o.o5/2, S E. t o.o5/2, S X 15. 某地1992年随机抽取100名健康女性,算得其血清总蛋白含量 的均数为74g/L,标准差为4g/L,则其95%勺参考值范围为()。

一元线性回归_方差分析_显著性分析

一元线性回归分析及方差分析与显著性检验 某位移传感器的位移x 与输出电压y 的一组观测值如下:(单位略) 设x 无误差,求y 对x 的线性关系式,并进行方差分析与显著性检验。 (附:F 0。10(1,4)=4.54,F 0。05(1,4)=7.71,F 0。01(1,4)=21.2) 回归分析是研究变量之间相关关系的一种统计推断法。 一. 一元线性回归的数学模型 在一元线性回归中,有两个变量,其中 x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系: (1) 通常认为且假设与x 无关。将观测数据 (i=1,……,n)代入(1)再注意样本为简单随机样本得: (2) 称(1)或(2)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。 对其进行统计分析称为一元线性回归分析。 模型(2)中 EY=,若记 y=E(Y),则 y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称 a 、b 为回归系数。 设得到的回归方程 bx b y +=0? 残差方程为N t bx b y y y v t t t i ,,2,1,?0 =--=-= 根据最小二乘原理可求得回归系数b 0和b 。 对照第五章最小二乘法的矩阵形式,令 ?????? ? ??=? ?? ? ??=?????? ? ? ?=??? ??? ? ??=N N N v v v V b b b x x x X y y y Y 2102121?111 则误差方程的矩阵形式为 V b X Y =-? 对照X A L V ?-=,设测得值 t y 的精度相等,则有

方差分析和回归分析的区别与联系

一、方差分析和回归分析的区别与联系?(以双变量为例) 联系: 1、概念上的相似性 回归分析是为了分析变量间的因果关系,研究自变量X取不同值时,因变量平均值Y的变化。运用回归分析方法,可以从变量的总偏差平方和中分解出已被自变量解释掉的误差(解释掉误差)和未被解释掉的误差(剩余误差); 方差分析是为了分析或检验总体间的均值是否有所不同。通过对样本中自变量X 取不同值时所对应的因变量Y均值的比较,推论到总体变量间是否存在关系。运用方差分析,也可以从变量的总离差平方和中分解出已被自变量解释掉的误差和未被自变量解释掉的误差。因此两种分析在概念上所具有的相似性是显而易见的。 2、统计分析步骤的相似性 回归分析在确定自变量X是否为因变量Y的影响因素时,从分析步骤上先对X 和Y进行相关分析,然后建立变量间的回归模型。最后再进行参数的统计显著性检验或对回归模型的统计显著性进行检验。 方差分析在确定X是否是Y的影响因素时,是先从样本所的数据的分析入手,然后考察数据模型,最后对样本均值是否相等进行显著性检验。二者在分析步骤上也具有相似性。 3、假设条件具有一定的相似性 回归分析有五个基本假定,分别是:自变量可以是随机变量也可以是非随机变量;X与Y之间存在的非确定性的相关关系,要求Y的所有子总体,其方差都相等;子总体均值在一条直线上;随机变量Y i是统计独立的,即Y1的数值不影响Y2的数值,各Y值之间都没有关系;Y值的每一个子总体都满足正态分布。 方差分析的基本假定有:等方差性(总体中自变量的每一取值所对应因变量Y i 的分布都具有相同方差);Y i的分布为正态分布。 二者在假设条件上存在着相同。 4、在总离差平方和中的分解形式和逻辑上的相似性 回归分析中,TSS=RSS+RSSR,而在方差分析中,TSS=RSS+BSS。二者均是以已解释掉的误差与未被解释掉的误差之和为总离差平方和。 5、确定影响因素上的相似性 为简化分析起见,我们假设只有一个自变量X影响因变量Y。在回归分析中,要确定X是否是Y的影响因素,就要看当X已知时,对Y的总偏差有无影响。如果X不是影响Y的因素,等同于只知变数Y的数据列一样,此时用Y去估计每个丫的值,所犯的错误(即偏差)为最小。如果因素X是影响Y的因素,那么当已知X值后 6、在统计显著性检验上具有相似性 回归分析的总显著性检验,是一种用R2测量回归的全部解释功效的检验。检验RSSR*(N-2)/RSS, 方差分析的显著性检验是一种根据样本数据提取信息所进行的显著性检验。它也是通过F检验进行的。 区别: 1、研究变量的分析点不同

相关主题
文本预览
相关文档 最新文档