第十二章 回归分析
- 格式:doc
- 大小:593.50 KB
- 文档页数:12
第十二章相关与回归分析一、填空1.如果两变量的相关系数为0,说明这两变量之间_____________。
2.相关关系按方向不同,可分为__________和__________。
3.相关关系按相关变量的多少,分为______和复相关。
4.在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。
自变量是作为(变化根据)的变量,因变量是随(自变量)的变化而发生相应变化的变量。
5.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,因变量则一般是(随机性)变量。
6.变量间的相关程度,可以用不知Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量,这就是(削减误差比例)。
7.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y围绕每个估计值cY是服从();(2)分布中围绕每个可能的cY值的()是相同的。
7.已知:工资(元)倚劳动生产率(千元)的回归方程为xyc8010+=,因此,当劳动生产率每增长1千元,工资就平均增加 80 元。
8.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为(回归方程),并据以进行估计和预测。
这种分析方法,通常又称为(回归分析)。
9.积差系数r是(协方差)与X和Y的标准差的乘积之比。
二、单项选择1.欲以图形显示两变量X和Y的关系,最好创建(D )。
A 直方图 B 圆形图 C 柱形图 D 散点图2.在相关分析中,对两个变量的要求是( A )。
A 都是随机变量B 都不是随机变量C 其中一个是随机变量,一个是常数D 都是常数3. 相关关系的种类按其涉及变量多少可分为( )。
A. 正相关和负相关B. 单相关和复相关C. 线性相关和非线性相关D. 不相关、不完全相关、完全相关4.关于相关系数,下面不正确的描述是( B )。
分层回归其实是对两个或多个回归模型进行比较。
我们可以根据两个模型所解释的变异量的差异来比较所建立的两个模型。
一个模型解释了越多的变异,则它对数据的拟合就越好。
假如在其他条件相等的情况下,一个模型比另一个模型解释了更多的变异,则这个模型是一个更好的模型。
两个模型所解释的变异量之间的差异可以用统计显著性来估计和检验。
模型比较可以用来评估个体预测变量。
检验一个预测变量是否显著的方法是比较两个模型,其中第一个模型不包括这个预测变量,而第二个模型包括该变量。
假如该预测变量解释了显著的额外变异,那第二个模型就显著地解释了比第一个模型更多的变异。
这种观点简单而有力。
但是,要理解这种分析,你必须理解该预测变量所解释的独特变异和总体变异之间的差异。
一个预测变量所解释的总体变异是该预测变量和结果变量之间相关的平方。
它包括该预测变量和结果变量之间的所有关系。
预测变量的独特变异是指在控制了其他变量以后,预测变量对结果变量的影响。
这样,预测变量的独特变异依赖于其他预测变量。
在标准多重回归分析中,可以对独特变异进行检验,每个预测变量的回归系数大小依赖于模型中的其他预测变量。
在标准多重回归分析中,回归系数用来检验每个预测变量所解释的独特变异。
这个独特变异就是偏相关的平方(Squared semi-partial correlation)-sr2(偏确定系数)。
它表示了结果变量中由特定预测变量所单独解释的变异。
正如我们看到的,它依赖于模型中的其他变量。
假如预测变量之间存在重叠,那么它们共有的变异就会削弱独特变异。
预测变量的独特效应指的是去除重叠效应后该预测变量与结果变量的相关。
这样,某个预测变量的特定效应就依赖于模型中的其他预测变量。
标准多重回归的局限性在于不能将重叠(共同)变异归因于模型中的任何一个预测变量。
这就意味着模型中所有预测变量的偏决定系数之和要小于整个模型的决定系数(R2)。
总决定系数包括偏决定系数之和与共同变异。
第十二章简单回归分析习题一、是非题1.直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互线性伴随变化关系.2.对同一组资料,如相关分析算出的r越大,则回归分析算出的b值也越大. 3.对同一组资料,对r与b分别作假设检验,可得t r=t b4.利用直线回归估计X值所对应的Y值的均数置信区间时,增大残差标准差可以减小区间长度.5.如果直线相关系数r=0,则直线回归的SS残差必等于0.二、选择题1. 用最小二乘法确定直线回归方程的原则是各观察点距直线的( ).A.纵向距离之和最小 B. 纵向距离的平方和最小C. 垂直距离之和最小D.垂直距离的平方和最小E.纵向距离的平方和最大2.Y=14十4X是1~7岁儿童以年龄(岁)估计体质量(市斤)的回归方程,若体质量换成位kg,则此方程( )A 截距改变B 回归系数改变C 两者都改变D 两者都不改变E.相关系数改变4.直线回归系数假设检验,其自由度为( )A.n B. n-1C.n-2 D. 2n-1E.2(n-1)5.当r=0时,Y=a+b X回归方程中( )A a必大于零B a必大于XC a必等于零D a必大于YE a必等于b6.在多元线性回归分析中,反应变量总离均差平方和可以分解为两部分,残差是指( ).A.观察值与估计值之差B.观察值与平均值之差C.估计值与平均值的平方和之差D.观察值与平均值之差的平方和E.观察值与估计值之差的平方和三、筒答题1.用什么方法考察回归直线是否正确?2.简述回归系数方差分析Y的平方和与自由度的分解.3. 举例说明如何用直线回归方程进行预测和控制?4. 直线回归分析时怎样确定自变量和因变量?5. 简述曲线回归常用的几种曲线形式.。
第十二章 相关与回归分析四、名词解释1.消减误差比例变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关系时预测Y 的误差1E ,再将其化为比例来度量。
将削减误差比例记为PRE 。
2. 确定性关系当一个变量值确定后,另一个变量值夜完全确定了。
确定性关系往往表现成函数形式。
3.非确定性关系在非确定性关系中,给定了一个变量值,另一个变量值还可以在一定范围内变化。
4.因果关系变量之间的关系满足三个条件,才能断定是因果关系。
1)连个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的;3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
5.单相关和复相关单相关只涉及到两个变量,所以又称为二元相关。
三个或三个以上的变量之间的相关关系则称为复相关,又称多元相关。
6.正相关与负相关正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。
7.散点图散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X 与Y 的相互关系,即得相关图,又称散点图。
8.皮尔逊相关系数r皮尔逊相关系数是协方差与两个随机变量X 、Y 的标准差乘积的比率。
9.同序对在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y Y <,则称这一配对是同序对。
10.异序对在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y >Y ,则称这一配对是异序对。
11.同分对如果在X 序列中,我们观察到i j X =X (此时Y 序列中无i j Y =Y ),则这个配对仅是X 方向而非Y 方向的同分对;如果在Y 序列中,我们观察到i jY =Y (此时X 序列中无i j X =X ),则这个配对仅是Y 方向而非X 方向的同分对;我们观察到i j X =X ,也观察到i j Y =Y ,则称这个配对为X 与Y 同分对。
-131-第十二章 回归分析前面我们讲过曲线拟合问题。
曲线拟合问题的特点是,根据得到的若干有关变量的一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。
通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。
从计算的角度看,问题似乎已经完全解决了,还有进一步研究的必要吗?从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。
另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。
简单地说,回归分析就是对拟合问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:(i )建立因变量y 与自变量m x x x ,,,21 之间的回归模型(经验公式); (ii )对回归模型的可信度进行检验;(iii )判断每个自变量),,2,1(m i x i =对y 的影响是否显著;(iv )诊断回归模型是否适合这组数据;(v )利用回归模型对y 进行预报或控制。
§1 多元线性回归回归分析中最简单的形式是x y 10ββ+=,y x ,均为标量,10,ββ为回归系数,称一元线性回归。
它的一个自然推广是x 为多元变量,形如m m x x y βββ+++= 110 (1)2≥m ,或者更一般地)()(110x f x f y m m βββ+++= (2)其中),,(1m x x x =,),,1(m j f j =是已知函数。
这里y 对回归系数),,,(10m ββββ =是线性的,称为多元线性回归。
不难看出,对自变量x 作变量代换,就可将(2)化为(1)的形式,所以下面以(1)为多元线性回归的标准型。
1.1 模型在回归分析中自变量),,,(21m x x x x =是影响因变量y 的主要因素,是人们能控制或能观察的,而y 还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作⎩⎨⎧++++=),0(~2110σεεβββN x x y m m (3) 其中σ未知。
现得到n 个独立观测数据),,,(1im i i x x y ,m n n i >=,,,1 ,由(3)得⎩⎨⎧=++++=ni N x x y i i im m i i ,,1),,0(~2110 σεεβββ (4) 记-132-⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=nm n m x x x x X 111111, ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=n y y Y 1 (5) T n ][1εεε=,T m ][10ββββ =(4)表为 ⎩⎨⎧+=),0(~2σεεβN X Y (6) 1.2 参数估计用最小二乘法估计模型(3)中的参数β。
由(4)式这组数据的误差平方和为∑=--==n i T i X Y X Y Q 12)()()(ββεβ (7)求β使)(βQ 最小,得到β的最小二乘估计,记作βˆ,可以推出 Y X X X T T 1)(ˆ-=β (8)将βˆ代回原模型得到y 的估计值 mm x x y βββˆˆˆˆ110+++= (9) 而这组数据的拟合值为βˆˆX Y=,拟合误差Y Y e ˆ-=称为残差,可作为随机误差ε的估计,而∑∑==-==n i ni i i i y y eQ 1122)ˆ( (10) 为残差平方和(或剩余平方和),即)ˆ(βQ 。
1.3 统计分析不加证明地给出以下结果:(i )βˆ是β的线性无偏最小方差估计。
指的是βˆ是Y 的线性函数;βˆ的期望等于β;在β的线性无偏估计中,βˆ的方差最小。
(ii )βˆ服从正态分布 ))(,(~ˆ12-X X N T σββ (11)(iii )对残差平方和Q ,2)1(σ--=m n EQ ,且)1(~22--m n Q χσ (12) 由此得到2σ的无偏估计22ˆ1σ=--=m n Q s (13) 2s 是剩余方差(残差的方差),s 称为剩余标准差。
-133-(iv )对Y 的样本方差∑=-=n i i y yS 12)(进行分解,有U Q S +=, ∑=-=n i i y yU 12)ˆ( (14)其中Q 是由(10)定义的残差平方和,反映随机误差对y 的影响,U 称为回归平方和,反映自变量对y 的影响。
1.4 回归模型的假设检验因变量y 与自变量m x x ,,1 之间是否存在如模型(1)所示的线性关系是需要检验的,显然,如果所有的|ˆ|jβ ),,1(m j =都很小,y 与m x x ,,1 的线性关系就不明显,所以可令原假设为),,1(0:0m j H j ==β当0H 成立时由分解式(14)定义的Q U ,满足 )1,(~)1/(/----=m n m F m n Q m U F (15) 在显著性水平α下有α-1分位数)1,(1---m n m F α,若)1,(1--<-m n m F F α,接受0H ;否则,拒绝。
注意 拒绝0H 只说明y 与m x x ,,1 的线性关系不明显,可能存在非线性关系,如平方关系。
还有一些衡量y 与m x x ,,1 相关程度的指标,如用回归平方和在样本方差中的比值定义SU R =2 (16) ]1,0[∈R 称为相关系数,R 越大,y 与m x x ,,1 相关关系越密切,通常,R 大于0.8(或0.9)才认为相关关系成立。
1.5 回归系数的假设检验和区间估计当上面的0H 被拒绝时,j β不全为零,但是不排除其中若干个等于零。
所以应进一步作如下m 个检验),,1(m j =:0:)(0=j j H β由(11)式,),(~ˆ2jj j j c N σββ,jj c 是1)(-X X T 对角线上的元素,用2s 代替2σ,由(11)~(13)式,当)(0j H 成立时 )1(~)1/(/ˆ----=m n t m n Q c t jj j j β (17) 对给定的α,若)1(||21--<-m n t t j α,接受)(0j H ;否则,拒绝。
(17)式也可用于对j β作区间估计(m j ,,1,0 =),在置信水平α-1下,j β的置信区间为-134- ])1(ˆ,)1(ˆ[2121jj j jj jc s m n t c s m n t --+-----ααββ (18) 其中1--=m n Q s 。
1.6 利用回归模型进行预测当回归模型和系数通过检验后,可由给定的),,(0010m x x x =预测0y ,0y 是随机的,显然其预测值(点估计)为mm x x y 001100ˆˆˆˆβββ+++= (19) 给定α可以算出0y 的预测区间(区间估计),结果较复杂,但当n 较大且i x 0接近平均值i x 时,0y 的预测区间可简化为]ˆ,ˆ[210210s u y s u y αα--+- (20) 其中21α-u 是标准正态分布的21α-分位数。
对0y 的区间估计方法可用于给出已知数据残差i i i yy e ˆ-=),,1(n i =的置信区间,i e 服从均值为零的正态分布,所以若某个i e 的置信区间不包含零点,则认为这个数据是异常的,可予以剔除。
1.7 Matlab 实现Matlab 统计工具箱用命令regress 实现多元线性回归,用的方法是最小二乘法,用法是:b=regress(Y,X) 其中Y ,X 为按(5)式排列的数据,b 为回归系数估计值mβββˆ,,ˆ,ˆ10 。
[b,bint,r,rint,stats]=regress(Y ,X,alpha)这里Y ,X 同上,alpha 为显著性水平(缺省时设定为0.05),b,bint 为回归系数估计值和它们的置信区间,r,rint 为残差(向量)及其置信区间,stats 是用于检验回归模型的统计量,有三个数值,第一个是2R (见(16)式),第二个是F (见(15)式),第3个是与F 对应的概率p ,α<p 拒绝0H ,回归模型成立。
残差及其置信区间可以用rcoplot(r,rint)画图。
例1 合金的强度y 与其中的碳含量x 有比较密切的关系,今从生产中收集了一批数据如下表: x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18y 42.0 41.5 45.0 45.5 45.0 47.5 49.0 55.0 50.0试先拟合一个函数)(x y ,再用回归分析对它进行检验。
解 先画出散点图:x=0.1:0.01:0.18;y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0];plot(x,y,'+')可知y 与x 大致上为线性关系。
设回归模型为x y 10ββ+= (21)-135-用regress 和rcoplot 编程如下:clc,clearx1=[0.1:0.01:0.18]';y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0]';x=[ones(9,1),x1];[b,bint,r,rint,stats]=regress(y,x);b,bint,stats,rcoplot(r,rint)得到b =27.4722 137.5000bint =18.6851 36.259475.7755 199.2245stats =0.7985 27.7469 0.0012即4722.27ˆ0=β,6194.140ˆ1=β,0ˆβ的置信区间是[18.6851,36.2594],1ˆβ的置信区间是[75.7755,199.2245];7985.02=R ,7469.27=F ,0012.0=p 。
可知模型(21)成立。
观察命令rcoplot(r,rint)所画的残差分布,除第8个数据外其余残差的置信区间均包含零点,第8个点应视为异常点,将其剔除后重新计算,可得b =30.7820 109.3985bint =26.2805 35.283476.9014 141.8955stats =0.9188 67.8534 0.0002应该用修改后的这个结果。
例 2 某厂生产的一种电器的销售量y 与竞争对手的价格1x 和本厂的价格2x 有关。
下表是该商品在10个城市的销售记录。
1x 元 120 140 190 130 155 175 125 145 180 1502x 元 100 110 90 150 210 150 250 270 300 250Y 个 102 100 120 77 46 93 26 69 65 85试根据这些数据建立y 与1x 和2x 的关系式,对得到的模型和系数进行检验。