第8章相关与回归分析课后习题答案
- 格式:doc
- 大小:87.00 KB
- 文档页数:3
2015年《统计学》第八章相关与回归分析习题及满分答案一、单选题1.相关分析研究的是( A )A、变量间相互关系的密切程度B、变量之间因果关系C、变量之间严格的相依关系D、变量之间的线性关系2.若变量X的值增加时,变量Y的值也增加,那么变量X和变量Y之间存在着(A )。
A、正相关关系B、负相关关系C、直线相关关系D、曲线相关关系3.若变量X的值增加时,变量Y的值随之下降,那么变量X和变量Y之间存在着(B)。
A、正相关关系B、负相关关系C、直线相关关系D、曲线相关关系4.相关系数等于零表明两变量(B)。
A.是严格的函数关系B.不存在相关关系C.不存在线性相关关系D.存在曲线线性相关关系5.相关关系的主要特征是(B)。
A、某一现象的标志与另外的标志之间的关系是不确定的B、某一现象的标志与另外的标志之间存在着一定的依存关系,但它们不是确定的关系C、某一现象的标志与另外的标志之间存在着严格的依存关系D、某一现象的标志与另外的标志之间存在着不确定的直线关系6.时间数列自身相关是指( C )。
A、两变量在不同时间上的依存关系B、两变量静态的依存关系C、一个变量随时间不同其前后期变量值之间的依存关系D、一个变量的数值与时间之间的依存关系7.如果变量X和变量Y之间的相关系数为负1,说明两个变量之间(D)。
A、不存在相关关系B、相关程度很低C、相关程度很高D、完全负相关8.若物价上涨,商品的需求量愈小,则物价与商品需求量之间(C)。
A、无相关B、存在正相关C、存在负相关D、无法判断是否相关9.相关分析对资料的要求是(A)。
A.两变量均为随机的B.两变量均不是随机的C、自变量是随机的,因变量不是随机的D、自变量不是随机的,因变量是随机的10.回归分析中简单回归是指(D)。
A.时间数列自身回归B.两个变量之间的回归C.变量之间的线性回归D.两个变量之间的线性回归11.已知某工厂甲产品产量和生产成本有直线关系,在这条直线上,当产量为10 00时,其生产成本为30000元,其中不随产量变化的成本为6000元,则成本总额对产量的回归方程为( A )A. y=6000+24xB. y=6+0.24xC. y=24000+6xD. y=24+6000x12.直线回归方程中,若回归系数为负,则(B) A.表明现象正相关B.表明现象负相关C.表明相关程度很弱D.不能说明相关方向和程度二、多项选择题1.下列属于相关关系的有(ABD )。
第八章相关与回归分析一、填空题8.1.1客观现象之间的数量联系可以归纳为两种不同的类型,一种是_____________ ,另一种是__________________ 。
8.1.2回归分析中对相互联系的两个或多个变量区分为__________________ 和___________ 。
8.1.3 _____________ 是指变量之间存在的严格确定的依存关系。
8.1.4 变量之间客观存在的非严格确定的依存关系,称为_____________________ 。
8.1.5按 ____________ 的多少不同,相关关系可分为单相关、复相关和偏相关。
8.1.6两个现象的相关,即一个变量对另一个变量的相关关系,称为。
8.1.7在某一现象与多个现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为____________________________ 。
8.1.8按变量之间相关关系的 _______________ 不同,可分为完全相关、不完全相关和不相关。
8.1.9按相关关系的 ____________________ 不同可分为线性相关和非线性相关。
8.1.10 线性相关中按_________________ 可分为正相关和负相关。
8.1.11 研究一个变量与另一个变量或另一组变量之间相关方向和相关密切程度的统计分析方法,称为__________________ 。
8.1.12当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为。
8.1.13当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为。
8.1.14 当两种现象之间的相关只是表面存在,实质上并没有内在的联系时,称之为__________________ 。
8.1.15根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间平均变化关系的统计分析方法,称为_____________________ 。
第八章 相关分析与回归分析习题参考答案一、名词解释函数关系:函数关系亦称确定性关系,是指变量(现象)之间存在的严格确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,必定有另一个且只有一个变量有确定的值与之对应。
相关关系:是指变量(现象)之间存在着非严格、不确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之相对应。
这种关系不能用完全确定的函数来表示。
相关分析:相关分析主要是研究两个或者两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多元相关用复相关系数表示。
回归分析:回归分析是研究某一随机变量关于另一个(或多个)非随机变量之间数量关系变动趋势的方法。
其目的在于根据已知非随机变量来估计和预测随机变量的总体均值。
单相关:单相关是指仅涉及两个变量的相关关系。
复相关:复相关是指一个变量对两个或者两个以上其他变量的相关关系。
正相关:正相关是指两个变量的变化方向是一致的,当一个变量的值增加(或减少)时,另一变量的值也随之增加(或减少)。
负相关:负相关是指两个变量的变化方向相反,即当一个变量的值增加(或减少)时,另一个变量的值会随之减少(或增加)。
线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈一条直线,则称为线性相关。
非线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈现出某种曲线形式,则为非线性相关。
相关系数:相关系数是衡量变量之间线性相关密切程度及相关方向的统计分析指标。
取值在-1到1之间。
两个变量之间的简单样本相关系数的计算公式为:()()niix x y y r --∑二、单项选择1.B;2.D;3.D;4.C;5.A;6.D 。
三、判断题(正确的打“√”,错误的打“×”) 1.×; 2.×; 3.√; 4.×; 5.×; 6.×; 7.×; 8.√. 四、简答题1、什么是相关关系?相关关系与函数关系有什么区别?答:相关关系,是指变量(现象)之间存在着非严格、不确定的依存关系。
第八章相关分析与回归分析一、单项选择题(以下每小题各有四项备选答案,其中只有一项是正确的。
)1.根据散点图8-1,可以判断两个变量之间存在( )。
A.正线性相关关系B.负线性相关关系C.非线性关系D.函数关系[答案] A2.假设某品牌的笔记本市场需求只与消费者的收入水平和该笔记本的市场价格水平有关。
则在假定消费者的收入水平不变的条件下,该笔记本的市场需求与其市场价格水平的相关关系就是一种( )。
A.单相关B.复相关C.偏相关D.函数关系[答案] C[解析] 在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。
在假定消费者的收入水平不变的条件下,该笔记本的市场需求与其市场价格水平的关系就是一种偏相关。
3.相关图又称( )。
A.散布表B.折线图C.散点图D.曲线图[答案] C[解析] 相关图又称散点图,是指把相关表中的原始对应数值在乎面直角坐标系中用坐标点描绘出来的图形。
4.下列相关系数取值中错误的是( )。
A.-0.86 B.0.78 C.1.25 D.0[答案] C[解析] 相关系数r的取值介于-1与1之间。
5.如果相关系数r=0,则表明两个变量之间( )。
A.相关程度很低B.不存在任何关系C.不存在线性相关关系D.存在非线性相关关系[答案] C[解析] 相关系数r是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
如果相关系数r=0,说明两个变量之间不存在线性相关关系。
6.当所有观测值都落在回归直线上,则两个变量之间的相关系数为( )。
A.1 B.-1C.+1或-1 D.大于-1,小于+1[答案] C[解析] 当所有观测值都落在回归直线上时,说明两个变量完全线性相关,所以相关系数为+1或-1。
即当两个变量完全正相关时,r=+1;当两个变量完全负相关时,r=-1。
7.对于回归方程,下列说法中正确的是( )。
A.只能由自变量x去预测因变量yB.只能由因变量y去预测自变量xC.既可以由自变量x去预测因变量y,也可以由变量因y去预测自变量xD.能否相互预测,取决于自变量x和变量因y之间的因果关系[答案] A[解析] 回归方程中,只能由自变量x去预测因变量y,而不能由因变量y不能预测自变量x。
第8章 非线性回归思考与练习参考答案8.1 在非线性回归线性化时,对因变量作变换应注意什么问题?答:在对非线性回归模型线性化时,对因变量作变换时不仅要注意回归函数的形式, 还要注意误差项的形式。
如:(1) 乘性误差项,模型形式为e y AK L αβε=, (2) 加性误差项,模型形式为y AK L αβε=+对乘法误差项模型(1)可通过两边取对数转化成线性模型,(2)不能线性化。
一般总是假定非线性模型误差项的形式就是能够使回归模型线性化的形式,为了方便通常省去误差项,仅考虑回归函数的形式。
8.2为了研究生产率与废料率之间的关系,记录了如表8.15所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。
表8.15生产率x (单位/周) 1000 2000 3000 3500 4000 4500 5000 废品率y (%)5.26.56.88.110.2 10.3 13.0解:先画出散点图如下图:5000.004000.003000.002000.001000.00x12.0010.008.006.00y从散点图大致可以判断出x 和y 之间呈抛物线或指数曲线,由此采用二次方程式和指数函数进行曲线回归。
(1)二次曲线 SPSS 输出结果如下:Model Summ ary.981.962.942.651R R SquareAdjusted R SquareStd. E rror of the EstimateThe independent variable is x.ANOVA42.571221.28650.160.0011.6974.42444.2696Regression Residual TotalSum of Squares dfMean SquareF Sig.The independent variable is x.Coe fficients-.001.001-.449-.891.4234.47E -007.0001.4172.812.0485.843 1.3244.414.012x x ** 2(Constant)B Std. E rror Unstandardized Coefficients BetaStandardizedCoefficientstSig.从上表可以得到回归方程为:72ˆ 5.8430.087 4.4710yx x -=-+⨯ 由x 的系数检验P 值大于0.05,得到x 的系数未通过显著性检验。
Hah 和网速是无形的|1:各章练习题答案2.1(1)属于顺序数据。
(2)频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频率)*频率%A1414B2121C3232;D1818E1515合计100100(3)条形图(略)2.2)2.3(1)频数分布表如下:(2)某管理局下属40个企分组表按销售收入分组(万元)企业数(个)频率(%)\先进企业良好企业一般企业落后企业111199^合计402.4频数分布表如下:某百货公司日商品销售额分组表按销售额分组(万元)频数(天)频率(%)…25~30 30~35 35~40 40~45 45~50461596~合计40直方图(略)。
2.5(1)排序略。
((2)频数分布表如下:100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650~66022660~6705》5670~68066680~6901414690~7002626《700~7101818710~7201313720~7301010730~740《33740~750 3 3 合计100100直方图(略)。
2.6 % 2.7 (1)属于数值型数据。
(2)分组结果如下:分组 天数(天)-25~-20 6 -20~-15 8 -15~-10 10 ~-10~-5 13 -5~0 12 0~5 4 5~107 合计60@(3)直方图(略)。
2.8 (1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
2.9 (1(2)A 班考试成绩的分布比较集中,且平均分数较高;B 班考试成绩的分布比A 班分散,且平均成绩较A 班低。
2.102.11 L U (2)17.21=s (万元)。
2.12 (1)甲企业平均成本=(元),乙企业平均成本=(元);原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。
2.13 x =(万元);48.116=s (万元)。
第四章 统计描述【4.1】某企业生产铝合金钢,计划年产量40万吨,实际年产量45万吨;计划降低成本5%,实际降低成本8%;计划劳动生产率提高8%,实际提高10%。
试分别计算产量、成本、劳动生产率的计划完成程度。
【解】产量的计划完成程度=%5.112100%4045100%=⨯=⨯计划产量实际产量即产量超额完成12.5%。
成本的计划完成程=84%.96100%5%-18%-1100%-1-1≈⨯=⨯计划降低百分比实际降低百分比即成本超额完成3.16%。
劳动生产率计划完=85%.101100%8%110%1100%11≈⨯++=⨯++计划提高百分比实际提高百分比即劳动生产率超额完成1.85%。
【4.2】某煤矿可采储量为200亿吨,计划在1991~1995年五年中开采全部储量的0.1%,在五年中,该矿实际开采原煤情况如下(单位:万吨)试计算该煤矿原煤开采量五年计划完成程度及提前完成任务的时间。
【解】本题采用累计法:(1)该煤矿原煤开采量五年计划完成=100%⨯数计划期间计划规定累计数计划期间实际完成累计 =75%.12610210253574=⨯⨯ 即:该煤矿原煤开采量的五年计划超额完成26.75%。
(2)将1991年的实际开采量一直加到1995年上半年的实际开采量,结果为2000万吨,此时恰好等于五年的计划开采量,所以可知,提前半年完成计划。
【4.3】我国1991年和1994年工业总产值资料如下表:要求:(1)计算我国1991年和1994年轻工业总产值占工业总产值的比重,填入表中; (2)1991年、1994年轻工业与重工业之间是什么比例(用系数表示)? (3)假如工业总产值1994年计划比1991年增长45%,实际比计划多增长百分之几? 【解】(1)(2)是比例相对数;1991年轻工业与重工业之间的比例=96.01.144479.13800≈;1994年轻工业与重工业之间的比例=73.04.296826.21670≈(3)%37.251%)451(2824851353≈-+即,94年实际比计划增长25.37%。
第8章《相关与回归》练习题第八章《相关与回归分析》练习题一、单选题1、两线性相关变量的相关图形是一条:a、一条平行于x轴B的直线,一条平行于y轴C的直线,一条倾斜的直线D,一条倾斜45并穿过原点的直线02、若估计标准误s等于因变量的标准差,则说明回归方程:a、非常有意义的B,毫无价值的C,错误的计算D,这个问题是站不住脚的3、某校经济管理类的学生学习统计学的时间(x)与考试成绩(у)之间建立回归方程ηc=a+bx。
计算后,方程为k C=20-0.8x,该方程的计算:a、a值是明显不对的b、b值是明显不对的c、 A和B不正确,D、A和B正确4、已知某工厂产品产量和成本费用有直线关系,在这条直线上,当产量为1千吨时,其成本费用为3万元,其中不随产量变化的费用为6000元,则成本费用对产量的回归直线方程是:a、ηc=24+6000xb、ηc=24000+6xc、 crmk_c=6000+2.4xd、ηC=0.6+2.4x5。
在进行相关和回归分析时,需要考虑是否需要确定自变量和因变量的问题:a、前者勿需确定,后者需要确定b、前者需要确定,后者勿需确定c、两者均需确定d、两者都勿需确定6、判定系数的值越大,则回归直线a、拟合度B越低,拟合度越高c、偏离原始数据定越远d、进行预测越不准确7、相关分析是研究:a、变量C之间的数量关系和变量之间的机器关系的密切程度b、变量之间的变动关系d、变量之间的因果关系8.在以下公式中,误差为:a、y=-40+1.6xr=0.89b、y=-5c3.8xr=-0.94c、y=36c2.4xr=0.96d、y=c36+3.8xr=0.989.估计的标准误差是否为SY/x?0表示a、全部观察值和回归值都不相等b、回归值代表性小c、所有观测值和回归值之间的偏差的乘积为零D,所有观测值都落在回归线上二、多项选择题1.判断系数越大,说明:a、观察值的离散程度也越大b、回归估计愈准确c、估计标准误的越大d、回归系数也越大e、相关系数的绝对值也越大2、在回归分析中,确定直线回归方程的两个变量必须是a、自变量B和因变量B分别是随机变量C、随机变量和可控变量d、对等关系e、不对等关系3.以下现象是相关的:a、家庭收入与消费支出之间的关系b、作物收获与施肥之间的关系C,圆圈面积与圆圈半径之间的关系D,身高与体重之间的关系e,年龄与血压之间的关系4、直线相关分析与直线回归分析的区别在于a、这两个变量是随机的,而回归分析中的自变量是给定值。
第八章 方差分析与回归分析本章前三节研究方差分析,讨论多个正态总体的比较,后两节研究回归分析.讨论两个变量之间的相关关系.§8.1 方差分析8.1.1问题的提出上一章讨论了单个或两个正态总体的假设检验,这里讨论多个正态总体的均值比较问题.通常为了研究某一因素对某项指标的影响情况,将该因素在多种情形下进行抽样检验,作出比较.一般将该因素称为一个因子,所检验的每种情形称为水平.在每个水平下需要考察的指标都分别构成一个总体,比较它们的总体均值是否相等.对每一个总体都分别抽取一个样本,样本容量称为重复数.如果只对一个因子中的多个水平进行比较,称为单因子方差分析,对多个因子的水平进行比较,称为多因子方差分析.本章只进行单因子方差分析.例 在饲料养鸡增肥的研究中,现有三种饲料配方:A 1 , A 2 , A 3 ,为比较三种饲料的效果,特选24只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量.实验结果如下表所示: 饲料鸡重/gA 1 1073 1009 1060 1001 1002 1012 1009 1028 A 2 1107 1092 990 1109 1090 1074 1122 1001 A 3 1093 1029 1080 1021 1022 1032 1029 1048 在此例中,就是要考察饲料对鸡增重的影响,需要比较三种饲料对鸡增肥的作用是否相同.这里,饲料就是一个因子,三种饲料配方就是该因子的三个水平,每种饲料喂养的雏鸡60天后的重量分别构成一个总体,这里共有3个总体,每一个总体抽取样本的重复数都是8,比较这3个总体的均值是否相等. 8.1.2单因子方差分析的统计模型设因子A 有r 个水平A 1 , A 2 , …, A r ,在每个水平下需要考察的指标都构成一个总体,即有r 个总体,分别记为Y 1 , Y 2 , …, Y r ,对每一个总体都分别抽取一个样本,首先考虑重复数相等的情形,设重复数都是m ,总体Y i 的样本Y i 1 , Y i 2 , …, Y im ,i = 1, 2, …, r .作出以下假定:(1)每一个总体都服从正态分布,即r i N Y i i i ,,2,1),,(~2L =σµ;(2)各个总体的方差都相等,即22221r σσσ===L ,都记为σ 2;(3)各个总体及抽取的样本相互独立,即Y ij 相互独立,i = 1, 2, …, r ,j = 1, 2, …, m . 需要比较它们的总体均值是否相等,即检验的原假设与备择假设为H 0:µ 1 = µ 2 = … = µ r vs H 1:µ 1 , µ 2 , …, µ r 不全相等,如果H 0成立,就可以认为这r 个水平下的总体均值相同,称为因子A 不显著;反之,如果H 0不成立,就称为因子A 显著.在水平A i 下的样品Y ij 与该水平下的总体均值µ i 之差ε ij = Y ij − µ i 为随机误差.由于Y ij ~ N (µ i , σ 2 ),因此随机误差ε ij ~ N (0 , σ 2 ).对所有r 个水平下的总体均值求平均,即∑==+++=ri i r r r 1211)(1µµµµµL称为总均值.每个水平A i 下的总体均值µ i 与总均值µ 之差a i = µ i − µ 称为该水平A i 下主效应.显然所有主效应a i 之和等于0,即01=∑=ri ia,检验所有水平下的总体均值是否相等,也就是检验所有主效应a i 是否全等于0.这样单因子方差分析在重复数相等的情形下,统计模型为⎪⎪⎩⎪⎪⎨⎧===++=∑=).,0(;0;,,2,1,,,2,1,21σεεµN a m j r i a Y ij r i i ij i ij 相互独立,且都服从L L 检验的原假设与备择假设为H 0:a 1 = a 2 = … = a r = 0 vs H 1:a 1 , a 2 , …, a r 不全等于0. 8.1.3平方和分解一.试验数据对于r 个总体下的试验数据Y ij , i = 1, 2, …, r ,j = 1, 2, …, m ,记T i 表示第i 个总体下试验数据总和,⋅i Y 表示第i 个总体下样本均值,n = rm 表示总的样本容量,T 表示总的试验数据总和,Y 表示总的样本均值,即∑==mj ij i Y T 1,∑=⋅==mj ij i i Y m m T Y 11, i = 1, 2, …, r ,∑∑∑=====r i mj ij r i i Y T T 111,∑∑∑=⋅=====ri i r i m j ij Y r Y rm T n Y 111111, 用⋅i Y 作为µ i 的点估计,Y 作为µ 的点估计.又记⋅i ε表示第i 个总体下随机误差平均值,ε表示总的随机误差平均值,即∑=⋅=mj ij i m 11εε, i = 1, 2, …, r ,∑∑∑=⋅====ri i r i m j ij r n 11111εεε.显然有⋅⋅+=i i i Y εµ,εµ+=Y .在单因子方差分析中通常将试验数据及基本计算结果写成表格形式 因子水平试验数据和 和的平方平方和A 1 Y 11 Y 12 … Y 1m T 1 21T∑21jY A 2 Y 21 Y 22 … Y 2m T 2 22T∑22jY┆ ┆ ┆ ┆ ┆ ┆ ┆┆A rY r 1Y r 2…Y rmT r2r T ∑2rjYΣ T∑=ri i T 12∑∑==ri mj ijY112二.组内偏差与组间偏差数据Y ij 与样本总均值Y 之差Y Y ij −称为样本总偏差,可以分成两部分之和:)()(Y Y Y Y Y Y i i ij ij −+−=−⋅⋅,其中⋅⋅⋅−=+−+=−i ij i i ij i i ij Y Y εεεµεµ)()(是第i 个总体内数据与该总体内样本均值的偏差,称为组内偏差,反映第i 个总体内的随机误差;εεεµεµ−+=+−+=−⋅⋅⋅i i i i i a Y Y )()(是第i 个总体内样本均值与总样本均值的偏差,称为组间偏差,反映第i 个总体的主效应. 三.偏差平方和及其自由度在统计学中,对于k 个独立数据Y 1 , Y 2 , …, Y k ,平均值∑==ki i Y k Y 11,称Y i 与Y 之差为偏差,所有偏差的平方和∑=−=ki i Y Y Q 12)(称为这k 个数据的偏差平方和,反映这k 个数据的分散程度.由于所有偏差之和0)(11=−=−∑∑==Y k Y Y Y ki i k i i , 即这k 个偏差由k 个独立数据受到一个约束条件形成,可以证明它们与k − 1个独立(随机)变量可以相互线性表示,称之为等价于k − 1个独立(随机)变量.一般地,若k 个独立数据受到r 个不相关的约束条件,则它们等价于k − r 个独立(随机)变量.在统计学中,把形成平方和的变量所等价的独立变量个数,称为该平方和的自由度,通常记为f .如上述偏差平方和Q 的自由度为k − 1,即f Q = k − 1.由于平方和的大小与变量个数(或自由度)有关,为了对偏差进行比较,通常考虑偏差平方和与其自由度之商,称为均方和,记为MS ,反映一组数据的平均分散程度,如样本方差∑=−−=ni i X X n S 122)(11就是样本数据偏差的均方和. 四.总平方和分解公式总偏差平方和记为S T 或SST ,其自由度记为f T ,有∑∑==−=r i mj ij T Y Y S 112)(,f T = rm − 1 = n − 1;组内偏差平方和记为S e 或SSE ,其自由度记为f e ,有∑∑==⋅−=r i mj i ij e Y Y S 112)(,f e = r (m − 1) = n − r ;组间偏差平方和记为S A 或SSA ,其自由度记为f A ,有∑∑∑=⋅==⋅−=−=ri i r i m j i A Y Y m Y Y S 12112()(,f A = r − 1.组内偏差平方和反映所有总体内的随机误差,组间偏差平方和反映所有总体的主效应.定理 总偏差平方和S T 可以分解为组内偏差平方和S e 与组间偏差平方和S A 之和,其自由度也可作相应的分解,即S T = S e + S A ,f T = f e + f A ,称之为平方和分解公式. 证:∑∑∑∑==⋅⋅==−+−=−=ri mj i i ij ri mj ij T Y Y Y Y Y Y S 112112()[()(∑∑∑∑∑∑==⋅⋅==⋅==⋅−−+−+−=ri mj i i ij ri mj i ri mj i ij Y Y Y Y Y Y Y Y 11112112))((2)()(A e A e ri i A e ri mj i ij i A e S S S S Y Y S S Y Y Y Y S S +=++=×−++=−−++=∑∑∑=⋅==⋅⋅0]0[(2])()[(2111,且显然有f T = n − 1 = (n − r ) + (r − 1) = f e + f A . 8.1.4检验方法由于组内偏差平方和反映所有总体内的随机误差,组间偏差平方和反映所有总体的主效应,通过比较组内偏差平方和与组间偏差平方和检验因子的显著性.下面将证明在假设所有主效应都等于0成立的条件下,它们的均方和之商服从F 分布.定理 在单因子方差分析模型中,组内偏差平方和S e 与组间偏差平方和S A 满足(1)E(S e ) = (n − r )σ 2,且)(~22r n Se −χσ; (2)∑=+−=ri i A a m r S 122)1()E(σ,且当H 0:a 1 = a 2 = … = a r = 0成立时,)1(~22−r S Aχσ;(3)S e 与S A 相互独立. 证:根据第五章的定理结论知:设X 1 , X 2 , …, X n 相互独立且都服从正态分布N (µ , σ 2),记∑==ni i X n X 11,∑=−=ni i X X S 120)(,则X 与S 0相互独立,且)1(~22−n S χσ.(1)∑∑==⋅−=ri mj i ij e Y Y S 112)(,Y i 1 , Y i 2 , …, Y im 相互独立且都服从正态分布N(µ i , σ 2),∑=⋅=mi ij i Y m Y 11,则∑=⋅−mj i ij Y Y 12)(与⋅i Y 相互独立,且)1(~)(12122−−∑=⋅m Y Y mj i ijχσ,因在不同水平下的样本都相互独立,则∑∑==⋅−ri mj i ij Y Y 112)(与⋅⋅⋅r Y Y Y ,,,21L 也相互独立,且根据独立χ 2变量的可加性知)(~)(121122r rm Y Y r i mj i ij−−∑∑==⋅χσ,故)(~)(1211222r n Y Y S r i mj i ije−−=∑∑==⋅χσσ,即得E(S e ) = (n − r )σ 2;(2)∑∑∑∑∑=⋅=⋅==⋅=⋅−+−+=−+=−=ri i i r i i r i ir i i i r i i A a m m a m a m Y Y m S 112121212(2)()()(εεεεεε,因ε ij (i = 1, 2, …, r , j = 1, 2, …, m ) 相互独立且都服从正态分布N (0, σ 2 ),有∑=⋅=m j ij i m 11εε (i = 1, 2, …, r ) 相互独立且都服从正态分布,0(2m N σ,∑=⋅=ri i r 11εε,则0)E()E()E(=−=−⋅⋅εεεεi i 且)1(~)(2212−−∑=⋅r mri i χσεε,即m r r i i 212)1()(E σεε−=⎥⎦⎤⎢⎣⎡−∑=⋅, 故21211212)1()E(2)(E )E(σεεεε−+=−+⎥⎦⎤⎢⎣⎡−+=∑∑∑∑==⋅=⋅=r a m a m m a m S ri i r i i i r i i ri iA ,当H 0:a 1 = a 2 = … = a r = 0成立时,∑∑=⋅=⋅−=−=ri i r i i A m Y Y m S 1212)()(εε,故)1(~)(22122−−=∑=⋅r mS ri i Aχσεεσ;(3)因∑∑==⋅−=ri mj i ij e Y Y S 112)(与⋅⋅⋅r Y Y Y ,,,21L 相互独立,有S e 与∑=⋅=ri i Y r Y 11相互独立,且∑=⋅−=ri i A Y Y m S 12(,故S e 与S A 相互独立.由于)(~22r n S e −χσ,当H 0:a 1 = a 2 = … = a r = 0成立时,)1(~22−r S A χσ,且S e 与S A 相互独立,则根据F 分布的定义可知:当H 0成立时,有),1(~)()1(22r n r F MS MS f S f S r n S r S F eAe e A A eA−−==−−=σσ.由于∑=+−=ri i A a m r S 122)1()E(σ,则F 越大,即S A 越大时,越有可能发生a i ≠ 0,则检验的拒绝域为右侧.步骤:假设H 0:a 1 = a 2 = … = a r = 0 vs H 1:a 1 , a 2 , …, a r 不全等于0,统计量),1(~r n r F MS MS f S f S F eAe e A A −−==, 显著水平α ,右侧拒绝域W = {f ≥ f 1 − α (r − 1, n − r )},计算f ,并作出判断. 这是F 检验法.通常列成方差分析表: 来源 平方和 自由度 均方和 F 比 因子 S A f A = r − 1 MS A = S A / f A F = MS A / MS e误差 S e f e = n − r MS e = S e / f A总和S Tf T = n − 1为了计算方便,可给出三个偏差平方和的计算公式.对于一组数据X 1 , X 2 , …, X n ,记∑==ni i X n X 11,则有2112212121)(⎟⎟⎠⎞⎜⎜⎝⎛−=−=−∑∑∑∑====n i i ni i n i i n i i X n X X n X X X , 记∑==m j ij i Y T 1,∑∑∑=====r i mj ij r i i Y T T 111,可得2112211112211211211)(T n Y Y n Y Y n Y Y Y S r i mj ij r i m j ij ri mj ij ri mj ij ri mj ij T −=⎟⎟⎠⎞⎜⎜⎝⎛−=−=−=∑∑∑∑∑∑∑∑∑∑==========, 212211121212121111)(T n T m Y n mr Y m m Y r Y m Y Y m S r i i r i m j ij r i m j ij r i i ri i A −=⎟⎟⎠⎞⎜⎜⎝⎛−⎟⎟⎠⎞⎜⎜⎝⎛=⎥⎦⎤⎢⎣⎡−=−=∑∑∑∑∑∑∑======⋅=⋅, ∑∑∑===−=−=r i i r i mj ijA T e T m Y S S S 121121.例 在饲料养鸡增肥的研究中,现有三种饲料配方:A 1 , A 2 , A 3 ,为比较三种饲料的效果,特选24只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量.实验结果如下表所示: 饲料鸡重/gA 1 1073 1009 1060 1001 1002 1012 1009 1028 A 2 1107 1092 990 1109 1090 1074 1122 1001 A 3 1093 1029 1080 1021 1022 1032 1029 1048 在显著水平α = 0.05下检验这三种饲料对雏鸡增重是否有显著差别. 解:假设H 0:a 1 = a 2 = a 3 = 0 vs H 1:a 1 , a 2 , a 3不全等于0,统计量),1(~r n r F MS MS f S f S F eAe e A A −−==,平方和显著水平α = 0.05,n = 24,r = 3,m = 8,右侧拒绝域W = { f ≥ f 0.95 (2, 21)} = { f ≥ 3.47},试验数据计算表 因子水平试验数据Y ijT i2i T∑=mj ijY 12A 1 1073 1009 1060 1001 10021012100910288194 67141636 8398024 A 2 1107 1092 990 1109 10901074112210018585 73702225 9230355 A 31093 1029 1080 1021 10221032102910488354 69789316 8728984总和 25133 210633177 26357363计算可得0833.96602513324121063317781112212=×−×=−=∑=T n T m S r i i A ,875.282152106331778126357363112112=×−=−=∑∑∑===r i i r i mj ije T m Y S ,方差分析表来源平方和自由度均方和F 比因子 9660.0833 2 4830.0417 3.5948 误差 28215.875 21 1343.6131 总和 37875.958323有F 比f = 3.5948 ∈ W ,故拒绝H 0 ,接受H 1 ,可以认为这三种饲料对雏鸡增重有显著差别, 并且检验的p 值p = P {F ≥ 3.5948} = 1 − 0.9546 = 0.0454 < α = 0.05. 8.1.5参数估计在方差分析问题中,可对总均值µ ,误差的方差σ 2作参数估计.当检验结果为因子不显著时,各水平下指标的总体均值与总体方差都相同,可将所有水平的指标看作一个统一的总体,全部试验数据是来自正态总体Y ~ N (µ , σ 2 ) 的一个容量为n = rm 的样本,因此样本均值nT Y n Y r i m j ij ==∑∑==111,样本方差1)(111122−=−−=∑∑==n S Y Y n S T r i m j ij.这样总均值µ 和误差的方差σ 2的点估计分别为Y =µˆ,22S =∧σ,置信度为1 − α 的置信区间分别是 ])1([2/1nSn t Y −±∈−αµ,])1()1(,)1()1([22/222/122−−−−∈−n S n n S n ααχχσ.当检验结果为因子显著时,还可进一步对主效应a i 作参数估计. 一.点估计由于试验数据Y ij , (i = 1, 2, …, r , j = 1, 2, …, m ) 相互独立且都服从正态分布N (µ + a i , σ 2 ),根据最大似然估计法,得到总均值µ ,误差的方差σ 2及主效应a i 的点估计.似然函数∏∏∏∏====⎪⎭⎪⎫⎪⎩⎪⎨⎧−−−==r i mj i ij r i m j ij r a y y p a a a L 11222112212)(exp π21)(),,,,,(σµσσµL ⎭⎬⎫⎩⎨⎧−−−=∑∑==ri mj iij na y 112222)(21exp )π2(1µσσ, 取对数,得∑∑==−−−−−=r i mj i ija yn n L 11222)(21)ln(2π)2ln(2ln µσσ.令关于µ 的偏导数等于0,有⎟⎟⎠⎞⎜⎜⎝⎛−−=−⋅−−−=∂∂∑∑∑∑∑=====r i i r i mj ijri mj i ij a m n y a y L 11121121)1()(221ln µσµσµ0101112112=⎟⎟⎠⎞⎜⎜⎝⎛−=⎟⎟⎠⎞⎜⎜⎝⎛−−=∑∑∑∑====µσµσn y n y r i m j ij r i mj ij , 得y y n r i mj ij ==∑∑==111µ,故总均值µ 的最大似然估计为Y =µˆ. 令关于a k 的偏导数等于0,有01)1()(221ln 1212=⎟⎟⎠⎞⎜⎜⎝⎛−−=−⋅−−−=∂∂∑∑==k mj kj mj k kj k ma m y a y a L µσµσ, k = 1, 2, …, r , 得µµ−=−=⋅=∑k mj kj k y y m a 11,故主效应a i 的最大似然估计为Y Y Y a i i i −=−=⋅⋅µˆˆ, i = 1, 2, …, r ,相应,第i 个水平下的总体均值µ i 的最大似然估计为⋅=+=i i i Y a ˆˆˆµµ. 令关于σ 2的偏导数等于0,有0)(2112)(ln 112422=−−+⋅−=∂∂∑∑==r i mj i ija yn L µσσσ,得∑∑==−−=r i m j i ij a y n 1122)(1µσ,故误差的方差σ 2的最大似然估计为nS Y Y n e r i m j i ij M =−=∑∑==⋅∧1122)(1σ.由于E(S e ) = (n − r )σ 2,可知∧2Mσ不是σ 2的无偏估计,修偏得σ 2的无偏估计e eMS rn S =−=∧2σ. 二.置信区间对总均值µ ,误差的方差σ 2及第i 个水平下的总体均值µ i 给出置信区间.第i 个水平下总体均值µ i 的点估计为∑=⋅==mj ij i i Y m Y 11ˆµ,因试验数据Y ij , (i = 1, 2, …, r , j = 1, 2, …, m )相互独立且都服从正态分布N(µ i , σ 2),则有),(~2mN Y i i σµ⋅,即)1,0(~N mY ii σµ−⋅,但σ 未知,用r n S e −=σˆ替换.由于)(~22r n S e −χσ且S e 与⋅i Y 相互独立,则根据χ 2分布的定义可得 )(~ˆ)(2r n t mY r n S m Y i i eii −−=−−⋅⋅σµσσµ,故第i 个水平下总体均值µ i 的置信度为1 − α 的置信区间是]ˆ)([2/1mr n t Y i i σµα−±∈−⋅.总均值µ 的点估计为∑∑====r i mj ij Y n Y 111ˆµ,因数据Y ij , (i = 1, 2, …, r , j = 1, 2, …, m ) 相互独立且都服从正态分布N (µ i , σ 2 ),有Y 服从正态分布,且µµµ====∑∑∑∑∑=====r i i r i mj i r i m j ij n m n Y n Y 111111)E(1)E(,n n n n Y nY ri mj r i mj ij 222112211211)Var(1)Var(σσσ=⋅===∑∑∑∑====, 得,(~2nN Y σµ,即)1,0(~N nY σµ−,但σ 未知,用r n S e −=σˆ替换.由于)(~22r n S e −χσ且S e 与Y 相互独立,则根据t 分布的定义可得 )(~ˆ)(2r n t nY r n S n Y e−−=−−σµσσµ, 故总均值µ 的置信度为1 − α 的置信区间是ˆ)([2/1nr n t Y σµα−±∈−.误差的方差σ 2的点估计为r n S e −=∧2σ,且)(~22r n Se −χσ,故误差的方差σ 2的置信度为1 − α 的置信区间是⎥⎦⎤⎢⎢⎢⎣⎡−−−−=⎥⎦⎤⎢⎣⎡−−∈∧−∧−)()(,)()()(,)(22/222/1222/22/12r n r n r n r n r n S r n S e e ααααχσχσχχσ. 例 由前面的鸡饲料对鸡增重问题的数据给出总均值µ ,误差的方差σ 2及三个水平下总体均值µ1 , µ 2 , µ 3的点估计和置信区间(α = 0.05).解:前面已检验知因子显著,则三个水平下总体均值µ1 , µ 2 , µ 3的点估计为25.102488194ˆ111====⋅m T Y µ, 125.107388585ˆ222====⋅m T Y µ,25.104488354ˆ333====⋅m T Y µ,总均值µ 的点估计为2083.10472425133ˆ====n T Y µ,误差的方差σ 2的点估计为6131.13432==−=∧e eMS rn S σ, 置信度为0.95的置信区间是]2008.1051,2992.997[86131.13430796.225.1024[]ˆ)21([975.011=×±=±∈⋅m t Y σµ,]0758.1100,1742.1046[86131.13430796.2125.1073[]ˆ)21([975.022=×±=±∈⋅m t Y σµ,]2008.1071,2992.1017[]86131.13430796.225.1044[]ˆ)21([975.033=×±=±∈⋅mt Y σµ,]7684.1062,6482.1031[]246131.13430796.22083.1047[]ˆ)21([975.0=×±=±∈nt Y σµ,[]9608.2743,2861.7952829.10875.28215,4789.35875.28215)21(,)21(2025.02975.02=⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡∈χχσe e S S . 8.1.6重复数不等的情形如果每个水平下试验次数不全相等,称为重复数不等的情形,其检验方法与在重复数相等的情形下类似,只是在对数据的表述和处理上有几点区别. 一.数据设第i 个水平A i 下的重复数为m i ,所取得的样本为i im i i Y Y Y ,,,21L ,i = 1, 2, …, r .显然重复数总数为n ,即m 1 + m 2 + … + m r = n . 二.总均值总均值µ 是各水平下总体均值µ i 的以频率nm i为权数的加权平均,即 ∑==+++=r i i i r r m n n m n m n m 122111µµµµµL .三.主效应约束条件第i 个水平下主效应a i = µ i − µ ,则满足011=−=∑∑==µµn m a m ri iir i ii .四.模型单因子方差分析在重复数不等的情形下,统计模型为⎪⎪⎩⎪⎪⎨⎧===++=∑=).,0(;0;,,2,1,,,2,1,21σεεµN a m m j r i a Y ij r i i i i ij i ij 相互独立,且都服从L L 检验H 0:a 1 = a 2 = … = a r = 0 vs H 1:a 1 , a 2 , …, a r 不全等于0.五.平方和的计算记∑==im j ij i Y T 1,∑=⋅==im j ij i i i i Y m m T Y 11,∑∑∑=====ri i ri m j ij T Y T i111,∑∑∑=⋅=====ri i i r i m j ij Y m n Y n n T Y i 11111, 则各平方和的计算公式为n T Y Y n Y Y Y S ri m j ijri m j ijri m j ij T iii21122112112)(−=−=−=∑∑∑∑∑∑======, n T m T Y n Y m Y Y m Y Y S ri ii ri i i ri i i ri m j i A i21221212112)()(−=−=−=−=∑∑∑∑∑==⋅=⋅==⋅, ∑∑∑===−=−=ri ii ri m j ijA T e m T Y S S S i12112. 例 某食品公司对一种食品设计了四种新包装,为了考察哪种包装最受顾客欢迎,选了10个地段繁华程度相似、规模相近的商店做试验,其中两种包装各指定两个商店销售,另两种包装各指定三个商店销售.在试验期内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,记录其销售量数据,见下表包装类型销售量数据A 1 12 18 A 2 14 12 13 A 3 19 17 21 A 4 24 30在显著水平α = 0.01下检验这四种包装对销售量是否有显著影响. 解:假设H 0:a 1 = a 2 = a 3 = a 4 = 0 vs H 1:a 1 , a 2 , a 3 , a 4不全等于0,统计量),1(~r n r F MS MS f S f S F eAe e A A −−==,显著水平α = 0.01,n = 10,r = 4,右侧拒绝域W = { f ≥ f 0.99 (3, 6)} = { f ≥ 9.78},销售量数据计算表计算可得258180101349812212=×−=−=∑=T n m T S ri ii A ,463498354412112=−=−=∑∑∑===ri i i ri mj ije m T Y S ,方差分析表来源平方和自由度均方和F 比因子 258 3 86 11.2174 误差 46 6 7.6667 总和 3049有F 比f = 11.2174 ∈ W ,故拒绝H 0 ,接受H 1 ,可以认为这四种包装对销售量有显著影响, 并且检验的p 值p = P {F ≥ 11.2174} = 1 − 0.9929 = 0.0071 < α = 0.01. 由于因子显著,则四个水平下总体均值µ1 , µ 2 , µ 3 , µ 4的点估计为15230ˆ1111====⋅m T Y µ, 13339ˆ2222====⋅m T Y µ, 19357ˆ3333====⋅m T Y µ, 27254ˆ4444====⋅m T Y µ, 总均值µ 的点估计为1810180ˆ====n T Y µ, 误差的方差σ 2的点估计为6667.72==−=∧e eMS rn S σ, 置信度为0.99的置信区间是]2587.22,7413.7[]26667.77074.315[]ˆ)6([1995.011=×±=±∈⋅m t Y σµ,]9267.18,0733.7[]36667.77074.313[]ˆ)6([2995.022=×±=±∈⋅m t Y σµ,]9267.24,0733.13[]36667.77074.319[]ˆ)6([3995.033=×±=±∈⋅m t Y σµ,]2587.34,7413.19[]26667.77074.327[]ˆ)6([4995.044=×±=±∈⋅m t Y σµ,]2462.21,7538.14[106667.77074.318[]ˆ)6([995.0=×±=±∈nt Y σµ,[]0775.68,4801.26757.046,5476.1846)6(,)6(2005.02995.02=⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡∈χχσeeS S .§8.2 多重比较上一节是将多个总体作为一个整体进行检验.如果检验结果是因子A 显著,则可以认为各水平下的均值µ i 不全相等,但却不能直接说明µ i 中哪些可以认为相等,哪些可以认为不等.这一节是对各个µ i 两两之间进行比较,对µ i − µ j ,也就是效应差a i − a j 作出估计、检验. 8.2.1效应差的置信区间效应差a i − a j = µ i − µ j 的点估计为⋅⋅−j i Y Y .因Y ik ~ N (µ i , σ 2 ), (i = 1, 2, …, r , k = 1, 2, …, m i ),则),(~121i i m k ik i i m N Y m Y iσµ∑=⋅=,,(~121jj m k jkj j m N Ym Y jσµ∑=⋅=,且当i ≠ j 时,⋅i Y 与⋅j Y 相互独立,可得))11(,(~2σµµji j i j i m m N Y Y +−−⋅⋅, 即)1,0(~11)()(N m m Y Y ji j i j i +−−−⋅⋅σµµ,但σ 未知,用r n S e −=σˆ替换.由于)(~22r n S e −χσ且S e 与⋅⋅j i Y Y ,相互独立,则根据t 分布的定义可得 )(~11ˆ)()()(11)()(2r n t m m Y Y r n S m m Y Y ji j i j i ej i j i j i −+−−−=−+−−−⋅⋅⋅⋅σµµσσµµ,故效应差a i − a j = µ i − µ j 的置信度为1 − α 的置信区间是]11ˆ)([2/1ji j i j i m m r n t Y Y +⋅−±−∈−−⋅⋅σµµα. 例 由前面的鸡饲料对鸡增重问题的数据给出各效应差µ i − µ j 的点估计和置信区间(α = 0.05). 解:因m 1 = m 2 = m 3 = 8,n = 24,r = 3,有25.102488194111===⋅m T Y ,125.107388585222===⋅m T Y ,25.104488354333===⋅m T Y , 则各效应差µ i − µ j 的点估计分别为875.48125.107325.10242121−=−=−=−⋅⋅∧Y Y µµ, 2025.104425.10243131−=−=−=−⋅⋅∧Y Y µµ, 875.2825.1044125.10733232=−=−=−⋅⋅∧Y Y µµ;因6553.3621875.28215ˆ==−=r n S e σ,有1142.385.06553.360796.211ˆ)21(975.0=××=+⋅j i m m t σ,则各效应差µ i − µ j 的置信度为0.95的置信区间分别是]7608.10,9892.86[]1142.38875.48[]8181ˆ)21([975.02121−−=±−=+⋅±−∈−⋅⋅σµµt Y Y , ]1142.18,1142.58[]1142.3820[]8181ˆ)21([975.03131−=±−=+⋅±−∈−⋅⋅σµµt Y Y , ]9892.66,2392.9[]1142.38875.28[]8181ˆ)21([975.03232−=±=+⋅±−∈−⋅⋅σµµt Y Y . 例 由前面的食品包装对销售量影响问题的数据给出各效应差µ i − µ j 的点估计和置信区间(α = 0.01). 解:因m 1 = 2,m 2 = 3,m 3 = 3,m 4 = 2,n = 10,r = 4,有15230111===⋅m T Y ,13339222===⋅m T Y ,19357333===⋅m T Y ,27254444===⋅m T Y , 则各效应差µ i − µ j 的点估计分别为213152121=−=−=−⋅⋅∧Y Y µµ,419153131−=−=−=−⋅⋅∧Y Y µµ, 1227154141−=−=−=−⋅⋅∧Y Y µµ,619133232−=−=−=−⋅⋅∧Y Y µµ, 1427134242−=−=−=−⋅⋅∧Y Y µµ,827194343−=−=−=−⋅⋅∧Y Y µµ;因7689.2646ˆ==−=r n S e σ,有2653.107689.27074.3ˆ)6(995.0=×=⋅σt ,则各效应差µ i − µ j 的置信度为0.99的置信区间分别是]3709.11,3709.7[]9129.02653.102[]3121ˆ)6([995.02121−=×±=+⋅±−∈−⋅⋅σµµt Y Y , ]3709.5,3709.13[]9129.02653.104[]3121ˆ)6([995.03131−=×±−=+⋅±−∈−⋅⋅σµµt Y Y , ]7347.1,2653.22[]12653.1012[]2121ˆ)6([995.04141−−=×±−=+⋅±−∈−⋅⋅σµµt Y Y , ]3816.2,3816.14[]8165.02653.106[]3131ˆ)6([995.03232−=×±−=+⋅±−∈−⋅⋅σµµt Y Y , ]6291.4,3709.23[]9129.02653.1014[]2131ˆ)6([995.04242−−=×±−=+⋅±−∈−⋅⋅σµµt Y Y , ]3709.1,3709.17[]9129.02653.108[]2131ˆ)6([995.04343−=×±−=+⋅±−∈−⋅⋅σµµt Y Y .8.2.2 多重比较问题对各个µ i 两两之间进行比较,也就是检验任意两个水平A i 与A j 下的总体均值是否相等,即检验假设j i ij H µµ=:0 vs j i ij H µµ≠:1, i , j = 1, 2, …, r .对于每一个假设ijH 0可以采取上一章两个正态总体的均值比较方法进行检验,但这里需要同时检验2)1(2−=r r C r 个这种假设. 设需要同时检验k 个假设k i H i ,,2,1,0L =,每一个假设的显著水平是α ,即在iH 0成立的条件下,接受i H 0的概率为1 − α ,但在所有k 个假设i H 0都成立的条件下,要同时接受所有假设iH 0的概率就可能远小于1 − α .事实上,此时对每一个假设i H 0,拒绝i H 0的概率为α ,而对所有k 个假设k i H i ,,2,1,0L =,至少拒绝其中一个i H 0的概率最大时可能达到k α ,即同时接受所有假设i H 0的概率就可能只有1 − k α .可见,需要同时检验多个假设时,一般不应逐个检验每一个假设,而是采用多重比较方法同时检验多个假设.多重比较方法,就是针对所有假设,构造一个统一的拒绝域,再逐个进行比较.这里,需要检验假设j i ijH µµ=:0 vs j i ij H µµ≠:1, 1≤ i < j ≤ r , 在ij H 0成立的条件下,⋅i Y 与⋅j Y 不应相差太大.对每一个假设ijH 0,拒绝域可以取为}|{|ij j i ij c Y Y W ≥−=⋅⋅,其中c ij 是常数.对所有的假设ijH 0,统一的拒绝域取为U U rj i ij j i rj i ijc Y YWW ≤<≤⋅⋅≤<≤≥−==11}|{|.分成重复数相等与不等两种场合进行讨论. 8.2.3重复数相等场合的T 法重复数相等时,各水平是平等的,由对称性,可以要求所有的c ij 相等,记为c ,即统一的拒绝域为}min max {}||max {}|{|1111c Y Y c Y Y c Y YW i ri i ri j i rj i rj i j i ≥−=≥−=≥−=⋅≤≤⋅≤≤⋅⋅≤<≤≤<≤⋅⋅U .因Y ij , (i = 1, 2, …, r , j = 1, 2, …, m ) 相互独立且都服从正态分布N (µ i , σ 2),有,(~2mN Y i i σµ⋅.当所有的假设ijH 0都成立时,即µ 1 = µ 2 = … = µ r = µ ,有,(~2mN Y i σµ⋅,则)1,0(~N mY i σµ−⋅.但σ 未知,用r n S e−=σˆ替换.由于)(~22r n S e −χσ且S e 与⋅i Y 相互独立,则根据t 分布的定义可得 )()(~ˆ)(2e i ei f t r n t mY r n S m Y =−−=−−⋅⋅σµσσµ.统一的拒绝域W 的形式可改写为⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≥−−−=≥−=⋅≤≤⋅≤≤⋅≤≤⋅≤≤m c m Y m Y c Y Y W i r i i r i i r i i r i σσµσµˆˆmin ˆmax }min max {1111, 其中mY Y mY mY Q i ri i ri i ri i ri σσµσµˆmin max ˆminˆmax1111⋅≤≤⋅≤≤⋅≤≤⋅≤≤−=−−−=是从分布为t ( f e )的总体中抽取容量为r 的样本所得的最大与最小顺序统计量之差(极差),称之为t 化极差统计量,其分布记为q (r , f e ).显然,t 化极差统计量Q 的分布q (r , f e ) 只与水平个数r 以及t 分布的自由度f e 有关,而与参数µ , σ 2及重复数m 无关.分布q (r , f e )的准确形式比较复杂,通常采用随机模拟方法得到其分位数q 1 − α (r , f e ).对于给定的容量r 及自由度f e ,随机模拟方法是(1)随机生成r 个标准正态分布N (0, 1) 随机数x 1 , x 2 , …, x r ,将这r 个随机数按由小到大的顺序排列,得到其最小随机数x (1) 和最大随机数x (r ) ;(2)随机生成1个自由度为f e 的χ 2分布χ 2 ( f e ) 随机数y ; (3)计算er f y x x q )1()(−=;(4)重复(1)至(3)步N 次,得到t 化极差统计量Q 的N 个观测值,只要N 非常大(如10 4或10 5次),就可得q (r , f e )的各种分位数q 1 − α (r , f e )的近似值.当显著水平为α 时,拒绝域{}),(ˆ1ef r q Q m c Q W ασ−≥=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≥=,有m c f r q e σαˆ),(1=−,可得 mf r q c e σαˆ),(1⋅=−,再逐个将||⋅⋅−j i Y Y 与c 比较,得出每一对µ i 与µ j 是否有显著差异的结论.步骤:假设j i ijH µµ=:0 vs j i ij H µµ≠:1, 1≤ i < j ≤ r , 统计量mY Y mY mY Q i ri i ri i ri i ri σσµσµˆmin max ˆminˆmax1111⋅≤≤⋅≤≤⋅≤≤⋅≤≤−=−−−=,显著水平α ,右侧拒绝域{}),(ˆ1e f r q Q m c Q W ασ−≥=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≥=,计算mf r q c e σαˆ),(1⋅=−,逐个将||⋅⋅−j i Y Y 与c 比较,得出结论.例 由前面的鸡饲料对鸡增重影响问题的数据对各因子作多重比较(α = 0.05).解:假设j i ijH µµ=:0 vs j i ij H µµ≠:1, 1≤ i < j ≤ 3, 统计量mY Y mY mY Q i ri i ri i ri i ri σσµσµˆmin max ˆminˆmax1111⋅≤≤⋅≤≤⋅≤≤⋅≤≤−=−−−=,显著水平α = 0.05,r = 3,f e = n − r = 21,右侧拒绝域W = {Q ≥ q 0.95 (3, 21)} = {Q ≥ 3.57},因m = 8,6553.3621875.28215ˆ==−=r n S e σ,有2658.4686553.3657.3=×=c , 由于c Y Y >=−=−⋅⋅875.48|125.107325.1024|||21,故µ 1与µ 2有显著差异;c Y Y <=−=−⋅⋅20|25.104425.1024|||31,故µ 1与µ 3没有显著差异; c Y Y <=−=−⋅⋅875.28|25.1044125.1073|||32,故µ 2与µ 3没有显著差异;8.2.4重复数不等场合的S 法重复数不等时,因)1,0(~11)()(N m m Y Y ji j i j i +−−−⋅⋅σµµ,但σ 未知,用r n S e−=σˆ替换.由于)(~22r n S e −χσ且S e 与⋅⋅j i Y Y ,相互独立,则根据t 分布的定义可得 )()(~11ˆ)()(e ji j i j i f t r n t m m Y Y =−+−−−⋅⋅σµµ,当所有的假设ijH 0都成立时,即µ 1 = µ 2 = … = µ r = µ ,有)(~11ˆe ji j i ij f t m m Y Y T +−=⋅⋅σ,得),1(~11ˆ)(222e j i j i ijij f F m m Y Y T F ⎟⎟⎠⎞⎜⎜⎝⎛+−==⋅⋅σ,从而统一的拒绝域可以取为U U r j i ji j i r j i ji j i c m m Y Y m m c Y Y W ≤<≤⋅⋅≤<≤⋅⋅≥+−=+≥−=11}11||{}11|{| }ˆmax {}ˆ11ˆ)(max {}ˆ11ˆ||max {221222211σσσσσc F c m m Y Y cm m Y Y ij r j i j i j i r j i ji j i r j i ≥=≥⎟⎟⎠⎞⎜⎜⎝⎛+−=≥+−=≤<≤⋅⋅≤<≤⋅⋅≤<≤,可以证明,),1(~1max 1e ij rj i f r F r F −−≤<≤&.当显著水平为α 时,拒绝域{}),1(ˆ)1(122e f r f F r c F W −≥=⎭⎬⎫⎩⎨⎧−≥=−ασ,有221ˆ)1(),1(σα−=−−r c f r f e ,可得),1()1(ˆ1e f r f r c −−=−ασ,因此⎟⎟⎠⎞⎜⎜⎝⎛+−−=+=−j i e ji ij m m f r f r m m c c 11),1()1(ˆ111ασ, 再逐个将||⋅⋅−j i Y Y 与ji ij m m cc 11+=比较,得出每一对µ i 与µ j 是否有显著差异的结论. 步骤:假设j i ijH µµ=:0 vs j i ij H µµ≠:1, 1≤ i < j ≤ r , 统计量),1(~11ˆ)1()(max1max 2211e j i j i rj i ijrj i f r F m m r Y Y r F F −⎟⎟⎠⎞⎜⎜⎝⎛+−−=−=⋅⋅≤<≤≤<≤&σ,显著水平α ,右侧拒绝域{}),1(ˆ)1(122e f r f F r c F W −≥=⎭⎬⎫⎩⎨⎧−≥=−ασ, 计算⎟⎟⎠⎞⎜⎜⎝⎛+−−=+=−j i e ji ij m m f r f r m m cc 11),1()1(ˆ111ασ, 逐个将||⋅⋅−j i Y Y 与c ij 比较,得出结论.例 由前面的食品包装对销售量影响问题的数据对各因子作多重比较(α = 0.01). 解:假设j i ijH µµ=:0 vs j i ij H µµ≠:1, 1≤ i < j ≤ 4, 统计量),1(~11ˆ)1()(max)1(max 224141e j i j i j i ij j i f r F m m r Y Y r F F −⎟⎟⎠⎞⎜⎜⎝⎛+−−=−=⋅⋅≤<≤≤<≤&σ,显著水平α = 0.01,r = 4,f e = n − r = 6,右侧拒绝域W = {F ≥ f 0.99 (3, 6)} = {F ≥ 9.78},因m 1 = m 4 = 2,m 2 = m 3 = 3,7689.2646ˆ==−=r n S e σ,有9981.1478.937689.2=××=c , 则6914.13312134241312=+====cc c c c ,9981.14212114=+=c c ,2459.12313123=+=c c , 由于12212|1315|||c Y Y <=−=−⋅⋅,故µ 1与µ 2没有显著差异;13314|1915|||c Y Y <=−=−⋅⋅,故µ 1与µ 3没有显著差异; 144112|2715|||c Y Y <=−=−⋅⋅,故µ 1与µ 4没有显著差异; 23326|1913|||c Y Y <=−=−⋅⋅,故µ 2与µ 3没有显著差异; 244214|2713|||c Y Y >=−=−⋅⋅,故µ 2与µ 4有显著差异; 34438|2719|||c Y Y <=−=−⋅⋅,故µ 3与µ 4没有显著差异.§8.3 方差齐性检验在单因子方差分析统计模型中,总是假设各个水平下的总体方差都相等,即222221σσσσ====r L ,称之为方差齐性.但方差齐性不一定自然成立,需要对其进行检验,检验的原假设与备择假设为H 0:22221r σσσ===L vs H 1:22221,,,r σσσL 不全相等,称为方差齐性检验.各水平下的总体方差2i σ分别是以该水平下的样本方差2i S 作为点估计,以由22221,,,r S S S L 构成的函数作为检验的统计量.分成重复数相等与不等两种场合进行讨论. 8.3.1重复数相等场合的Hartley 检验法重复数相等时,样本方差⎥⎦⎤⎢⎣⎡−−=⎥⎦⎤⎢⎣⎡−−=−−=∑∑∑=⋅==⋅m T Y m Y m Y m Y Y m S i m j ij i m j ij m j i ij i2122121221111)(11,i = 1, 2, …, r , 各水平是平等的,以r 个水平下样本方差),,2,1(,2r i S i L =的最大值与最小值之比作为检验的统计量H ,即},,,min{},,,max{2222122221r r S S S S S S H L L =.在方差齐性成立的条件下,统计量H 的分布只与水平个数r 及样本方差2i S 的自由度f = m − 1有关,记为H (r , f ).分布H (r , f )的准确形式比较复杂,通常采用随机模拟方法得到其分位数H 1 − α (r , f ).显然有H ≥ 1,且H 的观测值越接近1,方差齐性越应该成立,因此拒绝域取为W = {H ≥ H 1 − α (r , f )}.步骤:假设H 0:22221r σσσ===L vs H 1:22221,,,r σσσL 不全相等,统计量},,,min{},,,max{2222122221rr S S S S S S H L L =,显著水平α ,右侧拒绝域W = {H ≥ H 1 − α (r , f )}, 计算H ,并作出判断. 这称之为Hartley 检验法.例 由前面的鸡饲料对鸡增重影响问题的数据采用Hartley 检验法进行方差齐性检验(α = 0.05).解:假设H 0:232221σσσ== vs H 1:232221,,σσσ不全相等,统计量},,min{},,max{232221232221S S S S S S H =, 显著水平α = 0.05,且r = 3,f = m − 1,右侧拒绝域W = {H ≥ H 0.95 (3, 7)} = {H ≥ 6.94},根据试验数据计算表,可得T 1 = 8194,T 2 = 8585,T 3 = 8354,8398024121=∑=mj j Y ,9230355122=∑=mj jY,8728984123=∑=mj j Y ,则9286.759)881948398024(71221=−=S ,9821.2510885859230355(71222=−=S ,9286.759)883548728984(71223=−=S ,可得W H ∉==3042.39286.7599821.2510,故拒绝H 0 ,接受H 1 ,可以认为三个水平下的总体方差满足方差齐性.8.3.2 重复数不等场合大样本情形的Bartlett 检验法重复数不等时,样本方差⎥⎦⎤⎢⎣⎡−−=⎥⎦⎤⎢⎣⎡−−=−−=∑∑∑=⋅==⋅i i m j ij i i i m j ij i m j i ij i im T Y m Y m Y m Y Y m S i i i 2122121221111)(11,i = 1, 2, …, r , 记i i m j ijm j i ij i m T Y Y Y Q ii21212)(−=−=∑∑==⋅为第i 个水平下的偏差平方和,f i = m i − 1为其自由度,有i i i f Q S =2,且e r i m j i ijr i i S Y YQ i=−=∑∑∑==⋅=1121)(,e ri ir i i f r n r mf =−=−=∑∑==11,则组内偏差均方和∑∑∑=======ri i ei ri ii e ri ie e e e Sf f S f f Q f f S MS 1212111, 即MS e 等于样本方差22221,,,r S S S L 以各自自由度所占比例为权数的加权算术平均,而相应的加权几何平均记为GMS e ,即∏==ri f f i e eiS GMS 12)(.以MS e 与GMS e 之商的一个函数作为检验统计量.可以证明,大样本情形,在方差齐性成立的条件下,)1(~])ln()ln([1ln 212−−==∑=r S f MS f C GMS MS C f B ri i i e e e e e χ&,其中常数⎟⎟⎠⎞⎜⎜⎝⎛−−+=∑=e r i i f f r C 11)1(3111. 由于算术平均必大于等于几何平均,即MS e ≥ GMS e ,当且仅当所有2i S 都相等时等号成立,即B 的观测值越小,方差齐性越应该成立,因此拒绝域取为)}1({21−≥=−r B W αχ.。
第八章相关与回归分析练习题一、填空题1.相关关系依影响因素的多少分为和;依相关方向不同分为和;依相关的表现形式不同分为和。
2.在判定现象相关关系密切程度时,主要用进行一般性判断,用进行数量上的说明。
3.两个变量之间的相关关系称为;在具有相关关系的两个变量中,当一个变量的数值由小变大,而另一个变量的数值却由大变小时,这两个变量之间的关系称为。
4.进行分析时,首先要确定哪个是自变量,哪个是因变量,在这一点上与分析不同。
5.估计标准误差是与之间的标准差,它是说明的综合指标。
6.相关系数的取值范围是。
7.完全相关即是关系,其相关系数为。
8.相关系数是用于反映条件下,两变量相关关系的密切程度和方向的统计指标。
9.直线相关系数等于零,说明两变量之间;直线相关系数等于1,说明两变量之间;直线相关系数等于-1,说明两变量之间。
10.对现象之间变量的研究,统计是从两个方面进行的,一方面是研究变量之间关系的,这种研究称为相关关系;另一方面是研究关于自变量和因变量之间的变动关系,用数学方程式表达,称为。
11.回归方程y=a+bx中的参数a是, b是。
在统计中估计待定参数的常用方法是。
12.求两个变量之间非线性关系的回归线比较复杂,在许多情况下,非线性回归问题可以通过化成来解决。
13.用来说明回归方程代表性大小的统计分析指标是。
二、单项选择题l. 相关分析研究的是( )。
A.变量间的相互依存关系 B.变量间的因果关系C.变量间严格的一一对应关系D.变量间的线性关系2.下列情况中称为正相关的是( )A.随一个变量增加,另一个变量减少B.随一个变量减少,另一个变量增加C.随一个变量增加,另一个变量相应增加D.随一个变量增加,另一个变量不变3.相关系数的取值范围是( )。
A.一1<r<1B.0<r<1 C.一l≤r≤1 D. r>14.相关系数等于零表明两个变量( )。
A.是严格的函数关系B.不存在相关关系C.不存在线性相关关系D.存在曲线相关关系5.相关分析对资料的要求是( )。
《统计学概论》第八章课后练习答案一、思考题1.什么是相关系数?它与函数关系有什么不同?P237- P2382.什么是正相关、负相关、无线性相关?试举例说明。
P238- P2393.相关系数r的意义是什么?如何根据相关系数来判定变量之间的相关系数?P245 4.简述等级相关系数的含义及其作用?P2505.配合回归直线方程有什么要求?回归方程中参数a、b的经济含义是什么?P2566.回归系数b与相关系数r之间有何关系?P2587.回归分析与相关分析有什么联系与区别?P2548.什么是估计标准误差?这个指标有什么作用?P2619.估计标准误差与相关系数的关系如何?P258-P26410.解释判定系数的意义和作用。
P261二、单项选择题1.从变量之间相互关系的方向来看,相关关系可以分为()。
A.正相关和负相关B.直线关系与曲线关系C.单相关和复相关D.完全相关和不完全相关2.相关分析和回归分析相比较,对变量的要求是不同的。
回归分析中要求()。
A.因变量是随机的,自变量是给定的B.两个变量都是随机的C.两个变量都不是随机的D.以上三个答案都不对3.如果变量x与变量y之间的相关系数为-1,这说明两个变量之间是()。
A.低度相关关系B.完全相关关系C.高度相关关系D.完全不相关4.初学打字时练习的次数越多,出现错误的量就越少,这里“练习次数”与“错误量”之间的相关关系为()。
A.正相关B.高相关C.负相关D.低相关5.假设两变量呈线性关系,且两变量均为顺序变量,那么表现两变量相关关系时应选用()。
A.简单相关系数r B.等级相关系数r sC.回归系数b D.估计标准误差S yx6.变量之间的相关程度越低,则相关系数的数值()。
A.越大B.越接近0C.越接近-1 D.越接近17.下列各组中,两个变量之间的相关程度最高的是()。
A.商品销售额和商品销售量的相关系数是0.9B.商品销售额和商品利润率的相关系数是0.84C.产量与单位成本之间的相关系数为-0.94D.商品销售价格与销售量的相关系数为-0.918.相关系数r的取值范围是()。
第8章 非线性回归思考与练习参考答案8.1 在非线性回归线性化时,对因变量作变换应注意什么问题?答:在对非线性回归模型线性化时,对因变量作变换时不仅要注意回归函数的形式, 还要注意误差项的形式。
如:(1) 乘性误差项,模型形式为e y AK L αβε=, (2) 加性误差项,模型形式为y AK L αβε=+ 。
对乘法误差项模型(1)可通过两边取对数转化成线性模型,(2)不能线性化。
一般总是假定非线性模型误差项的形式就是能够使回归模型线性化的形式,为了方便通常省去误差项,仅考虑回归函数的形式。
8.2为了研究生产率与废料率之间的关系,记录了如表8.15所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。
表8.15生产率x (单位/周) 1000 2000 3000 3500 4000 4500 5000 废品率y (%)5.26.56.88.110.2 10.3 13.0解:先画出散点图如下图:5000.004000.003000.002000.001000.00x12.0010.008.006.00y从散点图大致可以判断出x 和y 之间呈抛物线或指数曲线,由此采用二次方程式和指数函数进行曲线回归。
(1)二次曲线 SPSS 输出结果如下:Model Summary.981.962.942.651R R SquareAdjusted R SquareStd. Error of the EstimateThe independent variable is x.ANOVA42.571221.28650.160.0011.6974.42444.2696Regression Residual TotalSum of Squares dfMean SquareF Sig.The independent v ariable is x .Coefficients-.001.001-.449-.891.4234.47E-007.0001.4172.812.0485.843 1.3244.414.012x x ** 2(Constant)B Std. E rror Unstandardized Coefficients BetaStandardizedCoefficients tSig.从上表可以得到回归方程为:72ˆ 5.8430.087 4.4710yx x -=-+⨯ 由x 的系数检验P 值大于0.05,得到x 的系数未通过显著性检验。
第8章相关与回归分析课后习题答案
8.1(1)利用Excel计算结果可知,相关系数为0.948138
XY
r=,说明相关程度较高。
(2)计算t统计量
2.681739
8.436851
0.317859
t====
给定显著性水平=0.05,查t分布表得自由度n-2=10-2=8的临界值tα为2.306,显然2
t t
α
>,表明相关系数r在统计上是显著的。
8.2 利用Excel中的”数据分析”计算各省市人均GDP和第一产业中就业比例的相关系数为:-0.34239,这说明人均GDP与第一产业中就业比例是负相关,但相关系数只有-0.34239,表明二者负相关程度并不大。
相关系数检验:
在总体相关系数0
=
ρ的原假设下,计算t统计量:
0.34239
1.9624
r
t
-⨯
===-
查t分布表,自由度为31-2=29,当显著性水平取05
.0
=
α时,2αt=2.045;当显著性水平取0.1
α=时,2αt=1.699。
由于计算的t统计量的绝对值1.9624小于α
t
=2.045,所以在05
.0
=
α的显著性水平下,不能拒绝相关系数0
=
ρ的原假设。
即是说,在05
.0
=
α的显著性水平下不能认为人均GDP与第一产业中就业比例有显著的线性相关性。
但是计算的t统计量的绝对值1.9624大于2α
t
=1.699,所以在0.1
α=的显著性水平下,可以拒绝相关系数0
=
ρ的原假设。
即在0.1
α=的显著性水平下,可以认为人均GDP与第一产业中就业比例有一定的线性相关性。
8.3设当年红利为Y,每股账面价值为X
建立回归方程12
i i i
Y X u
ββ
=++
估计参数为
^
0.4797750.072876
i i
Y X
=+
参数的经济意义是每股账面价值增加1元时,当年红利将平均增加0.072876元。
序号6的公司每股账面价值为19.25元,增加1元后为20.25元,当年红利可能为:^
0.4797750.07287620.25 1.955514
i
Y=+⨯=(元)
8.4(1)数据散点图如下:
(2)根据散点图可以看出,随着航班正点率的提高,投诉率呈现出下降的趋势,两者之间存在着一定的负相关关系。
(3)设投诉率为Y ,航班正点率为X
建立回归方程 12i i i Y X u ββ=++
估计参数为 ^
6.01780.07i i Y X =-
(4)参数的经济意义是航班正点率每提高一个百分点,相应的投诉率(次/10万名乘客)下降0.07。
(5)航班按时到达的正点率为80%,估计每10万名乘客投诉的次数可能为:
4187.08007.00178.6ˆ=⨯-=i Y (次/10万)
8.5 由Excel 回归输出的结果可以看出: (1)回归结果为
^
23332.993090.0716190.1687270.179042
i i i i Y X X X =+++ (2)由Excel 的计算结果已知:1234,,,ββββ对应的 t 统计量分别为0.51206、4.853871、
4.222811、3.663731 ,其绝对值均大于临界值0.025(224) 2.101t -=,所以各个自变量都对Y 有明显影响。
由F=58.20479, 大于临界值0.05(41,224) 3.16F --=,说明模型在整体上是显著的。
8.6 (1)该回归分析中样本容量是14+1=15; (2)计算RSS =66042-65965=77;
ESS 的自由度为k-1=2,RSS 的自由度 n -k =15-3=12;
(3)计算:可决系数 2
65965/660420.9988
R ==
修正的可决系数
2
1511(10.9988)
0.9986
153
R -=-
⨯-=-
(4)检验X 2和X 3对Y 是否有显著影响 /(1)65965/2329825140.11
/()
77/12
6.4166
ESS k F RSS n k -=
=
==-
(5) F 统计量远比F 临界值大,说明X 2和X 3联合起来对Y 有显著影响,但并不能确定
X 2和X 3各自对Y 的贡献为多少。
8.7
8.8(1)用Excel 输入Y 和X 数据,生成2X 和3X 的数据,用Y 对X 、2X 、3
X 回归,估计参数结果为
^
2
3
1726.737.8796468740.00895 3.7124906i i Y X X
E X =-+-+-
t =(-1.9213) (2.462897) (-2.55934) (3.118062) 2
0.973669R = 2
0.963764R =
(2)检验参数的显著性:当取0.05α=时,查t 分布表得0.025(124) 2.306t -=,与t 统计量对比,除了截距项外,各回归系数对应的t 统计量的绝对值均大于临界值,表明在这样的显著性水平下,回归系数显著不为0。
(3)检验整个回归方程的显著性:模型的2
0.973669R =,2
0.963794R =,说明可决系数较高,对样本数据拟合较好。
由于F =98.60668,而当取0.05α=时,查F 分布表得0.05(41,124) 4.07F --=,因为F =98.60668>4.07,应拒绝0234:0H βββ===,说明X 、2X 、3
X 联合起来对Y 确有显著影响。
(4)计算总成本对产量的非线性相关系数:因为2
0.973669R =因此总成本对产量的非线性相关系数为2
0.973669R =或R =0.9867466
(5)评价:虽然经t 检验各个系数均是显著的,但与临界值都十分接近,说明t 检验只是勉强通过,其把握并不大。
如果取0.01α=,则查t 分布表得0.005(124) 3.3554t -=,这时各个参数对应的t 统计量的绝对值均小于临界值,则在0.01α=的显著性水平下都应接受0:0
j H β=的原假设。
8.9 利用Excel 输入X 、y 数据,用y 对X 回归,估计参数结果为
i i x y
314.073.5ˆ-= t 值=(9.46)(-6.515) 794.02
=R 775.02
=R
整理后得到:x y 314.0e 9693.307ˆ-⨯=。