当前位置:文档之家› 回归分析第三章

回归分析第三章

第三章回归分析基础

第三章 回归分析基础 3.1 回归模型简介 一、数据、变量与模型 数据是进行模型分析的基础。一般地,数据可分为三类:一类为截面数据(Cross-Section Data ),一类为时间序列数据(Time-Series Data), 另一类为平行数据(Panel Data )或混合数据(Mixed Data)。 截面数据研究个体在某个时点上的变化情况。例如,2001年1月末,全国各省、自治区、直辖市的国内生产总值(GDP )、财政收入、财政支出、货币发行量、固定资产投资额、进出口总额等,均为截面数据。再如,在某一时点上,某地区家庭费用开支数据,也是典型的截面数据。 时间序列数据是研究个体在一定时期内的变化情况。时间序列数据在日常生活中随处可见。例如,建国以来我国历年的国内生产总值(GDP )数据、居民消费额数据、零售物价指数数据等,均为时间序列数据。 平行数据是截面数据与时间序列数据的复合体,它既研究某段时间内个体的变化情况,又研究个体在每个时点上的变化情况。 变量是构成模型的框架,是对个体不确定性的一种因素度量。一般可将它分为两类:内生变量(Endogenous Variable )和外生变量(Exogenous Variable )。 内生变量是指由经济系统本身决定的变量。外生变量则指经济系统本身无法决定、并由外部因素决定的变量。内生产变量也称联合决定变量(Jointly-Determined Variables)。外生变量也称前定变量(Predetermined Variables)。例如,在简单的原油供求模型: 1111q a b p c y ε=+++(需求方程) 2222 q a b p c R ε=+++(供给方程) 中,原油总量q 和原油价格p 均为内生变量,而国民收入y 和降雨量R 均为外生变量。 值得注意的是,内生变量与外生变量的认定并不是一成不变的,在一定条件下二者可以相互转换,应视研究对象和研究目的的不同而不同。此外,内生变量与外生变量的划分直接关系到模型参数的估计与推断,这是后话。

应用回归分析课后答案

应用回归分析课后答案 第二章一元线性回归 解答:EXCEL结果: SUMMARY OUTPUT 回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值5 方差分析 df SS MS F Significance F 回归分析125 残差3 总计410 Coefficients标准误差t Stat P-value Lower 95%Upper 95%下限%上限% Intercept X Variable 15 RESIDUAL OUTPUT 观测值预测Y残差 1 2 3 4 5 SPSS结果:(1)散点图为:

(2)x 与y 之间大致呈线性关系。 (3)设回归方程为01y x ββ∧ ∧ ∧ =+ 1β∧ = 12 2 1 7()n i i i n i i x y n x y x n x -- =- =-=-∑∑ 0120731y x ββ-∧- =-=-?=- 17y x ∧ ∴=-+可得回归方程为 (4)22 n i=1 1()n-2i i y y σ∧∧=-∑ 2 n 01i=1 1(())n-2i y x ββ∧∧=-+∑ =222 22 13???+?+???+?+??? (10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1 169049363 110/3= ++++= 1 330 6.13 σ∧=≈ (5)由于2 11(, )xx N L σββ∧ :

t σ ∧ == 服从自由度为n-2的t分布。因而 /2 |(2)1 P t n α α σ ?? ?? <-=- ?? ?? 也即: 1/211/2 (p t t αα βββ ∧∧ ∧∧ -<<+=1α - 可得 1 95% β∧的置信度为的置信区间为(7-2.3537+2.353即为:(,) 2 2 00 1() (,()) xx x N n L ββσ - ∧ + : t ∧∧ == 服从自由度为n-2的t分布。因而 /2 (2)1 P t n α α ∧ ?? ?? ?? <-=- ?? ?? ?? ?? ?? 即 0/200/2 ()1 pβσββσα ∧∧∧∧ -<<+=- 可得 1 95%7.77,5.77 β∧- 的置信度为的置信区间为() (6)x与y的决定系数 2 21 2 1 () 490/6000.817 () n i i n i i y y r y y ∧- = - = - ==≈ - ∑ ∑ (7)

应用回归分析,第5章课后习题参考答案.docx

第5 章自变量选择与逐步回归 思考与练习参考答案 自变量选择对回归参数的估计有何影响? 答:回归自变量的选择是建立回归模型得一个极为重要的问题。如果模型中丢 掉了重要的自变量, 出现模型的设定偏误,这样模型容易出现异方差或自相关 性,影响回归的效果;如果模型中增加了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。 自变量选择对回归预测有何影响? 答:当全模型(m元)正确采用选模型(p 元)时,我们舍弃了m-p 个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差, 所以全模型正确而误用选模型有利有弊。当选模型(p 元)正确采用全模型(m 元)时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选 模型的大,所以回归自变量的选择应少而精。 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣? 答:如果所建模型主要用于预测,则应使用C p 统计量达到最小的准则来衡量回 归方程的优劣。 试述前进法的思想方法。 答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm 建立m个一元线性回归方程, 并计算 F 检验值,选择偏回归平方和显著的变量(F 值最大且大于临界值)进入回归方程。每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的 F 检验值,选择偏回归平方和显著的两变量变 量(F 值最大且大于临界值)进入回归方程。在确定引入的两个自变量以后,再 引入一个变量,建立m-2 个三元线性回归方程,计算它们的 F 检验值,选择偏

应用回归分析第三章课后习题整理

y1 1 x11 x12 x1p 0 1 3.1 y2 1 x21 x22 x2p 1 + 2 即y=x + yn 1 xn1 xn2 xnp p n 基本假定 (1) 解释变量x1,x2…,xp 是确定性变量,不是随机变量,且要求 rank(X)=p+1

n 注 tr(H) h 1 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中 自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较 多,使样本量与自变量的个数接近时, R 2易接近1,其中隐藏一些虚 假成分。 3.5当接受H o 时,认定在给定的显著性水平 下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意 义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描 述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面 可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新 考虑建模问题。 当拒绝H o 时,我们也不能过于相信这个检验,认为这个回归模型 已经完美了,当拒绝H o 时,我们只能认为这个模型在一定程度上说明 了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我 们漏掉了一些重要的自变量。 3.6中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计 值1, 2, p 比一般的经验回归方程减少了一个未知参数,在变量较 SSE (y y)2 e12 e22 1 2 1 E( ) E( - SSE* - n p 1 n p n 2 [D(e) (E(e ))2 ] 1 n (1 1 n 2 en n E( e 1 1 n p 1 1 n p 1 1 "1 1 n p 1 J (n D(e) 1 (p 1)) 1_ p 1 1 1 n p 1 2 2 n E(e 2 ) (1 h ) 2 1

应用回归分析,第8章课后习题参考答案

第8章 非线性回归 思考与练习参考答案 8.1 在非线性回归线性化时,对因变量作变换应注意什么问题? 答:在对非线性回归模型线性化时,对因变量作变换时不仅要注意回归函数的形式, 还要注意误差项的形式。如: (1) 乘性误差项,模型形式为 e y AK L αβε =, (2) 加性误差项,模型形式为y AK L αβ ε = + 对乘法误差项模型(1)可通过两边取对数转化成线性模型,(2)不能线性化。 一般总是假定非线性模型误差项的形式就是能够使回归模型线性化的形式,为了方便通常省去误差项,仅考虑回归函数的形式。 8.2为了研究生产率与废料率之间的关系,记录了如表8.15所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。 表8.15 生产率x (单位/周) 1000 2000 3000 3500 4000 4500 5000 废品率y (%) 5.2 6.5 6.8 8.1 10.2 10.3 13.0 解:先画出散点图如下图: 5000.00 4000.003000.002000.001000.00x 12.00 10.00 8.006.00 y

从散点图大致可以判断出x 和y 之间呈抛物线或指数曲线,由此采用二次方程式和指数函数进行曲线回归。 (1)二次曲线 SPSS 输出结果如下: Model Summ ary .981 .962 .942 .651 R R Square Adjusted R Square Std. E rror of the Estimate The independent variable is x. ANOVA 42.571221.28650.160.001 1.6974.424 44.269 6 Regression Residual Total Sum of Squares df Mean Square F Sig.The independent variable is x. Coe fficients -.001.001-.449-.891.4234.47E -007.000 1.417 2.812.0485.843 1.324 4.414.012 x x ** 2 (Constant) B Std. E rror Unstandardized Coefficients Beta Standardized Coefficients t Sig. 从上表可以得到回归方程为:72? 5.8430.087 4.4710y x x -=-+? 由x 的系数检验P 值大于0.05,得到x 的系数未通过显著性检验。 由x 2的系数检验P 值小于0.05,得到x 2的系数通过了显著性检验。 (2)指数曲线 Model Summ ary .970 .941 .929 .085 R R Square Adjusted R Square Std. E rror of the Estimate The independent variable is x.

应用回归分析课后习题第3章11题

3.11研究货运总量y (万吨)与工业总产值1x (亿元)、农业总产值2x (亿元)、居民非商品支出3x (亿元)的关系。数据如表3-9所示。 (1)计算出y ,1x ,2x ,3x 的相关系数矩阵。 所以y ,1x ,2x ,3x 的相关系数矩阵为: ????? ? ? ??1547.0398.0724.0547.01113.0731.0398.0113.01556 .0724.0731.0556.01 (2)求y 关于1x ,2x ,3x 的三元线性回归方程。 编号 1 2 3 4 5 6 7 8 9 10 货运总量y (万吨) 160 260 210 265 240 220 275 160 275 250 工业总产值x1(亿 元) 70 75 65 74 72 68 78 66 70 65 农业总产值x2(亿 元) 35 40 40 42 38 45 42 36 44 42 居民非商品支出x3 (亿元) 1.0 2.4 2.0 3.0 1.2 1.5 4.0 2.0 3.2 3.0

由系数表可以知道,y 关于1x ,2x ,3x 的三元线性回归方程为: 280.348447.12101.7574.3321-++=x x x y (3)对所求得的方程作拟合优度检验。 由模型汇总可知,样本的决定系数为0.806,所以可以认为回归方程为样本观测值的拟合程度较好,即回归方程的显著性较高。 (4)对回归方程作显著性检验。 对方差分析表可以知道p 值为0.015<0.05 说明自变量1x ,2x ,3x 对因变量y 产生的线性影响较显著。而F=8.283>74.405.0=F 时,就拒绝原假设,认为在显著性水平0.05下,y 与1x , 2x ,3x 有显著的线性关系,即回归方程是显著的。

应用回归分析第章课后习题答案

第6章 6.1 试举一个产生多重共线性的经济实例。 答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。 6.2多重共线性对回归参数的估计有何影响? 答:1、完全共线性下参数估计量不存在; 2、参数估计量经济含义不合理; 3、变量的显著性检验失去意义; 4、模型的预测功能失效。 6.3 具有严重多重共线性的回归方程能不能用来做经济预测? 答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。 6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。 6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。将所得结果与逐步回归法所得的选元结果相比较。 5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社

应用回归分析-第3章课后习题参考答案

第3章 多元线性回归 思考与练习参考答案 3.1 见教材P64-65 3.2 讨论样本容量n 与自变量个数p 的关系,它们对模型的参数估计有何影响? 答:在多元线性回归模型中,样本容量n 与自变量个数p 的关系是:n>>p 。如果n<=p 对模型的参数估计会带来很严重的影响。因为: 1. 在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。 2. 解释变量X 是确定性变量,要求()1rank p n =+

应用回归分析第三版·何晓群-第三章所有习题答案

应用回归分析第三章习题 3.1 y x =β 基本假定: (1) 诸1234n x ,x x ,x x ……非随机变量,rank (x )=p+1,X 为满秩矩阵 (2) 误差项()()200i i j E ,i j cov ,,i j ?ε=? ?δ=?εε=??≠?? (3)()2 0i i j ~N ,,?εδ??εε??诸相互独立 3.2 ()10111 ?X X X X |rank(X X )p rank(X )p n p -'β'≠'=+≥+≥+存在,必须使存在。即|则必有故 3.3 ()()()() ()22 11 122 12 22211111111 n n n i i ii i i i n ii i n i i E e D e h n h n p ?E E e n p n p n p =====??==-δ ????? =-δ=--δ ??? ??∴δ ==--δ=δ ? ----??∑∑∑∑∑ 3.4 并不能这样武断地下结论。2 R 与回归方程中的自变量数目以及样本量n 有关,当样本量n 与自变量个数接近时,2 R 易接近1,其中隐含着一些虚假成分。因此,并不能仅凭很大的2 R 就模型的优劣程度。 3.5 首先,对回归方程的显著性进行整体上的检验——F 检验 001230p H :β=β=β=β==β=……

接受原假设:在显著水平α下,表示随机变量y 与诸x 之间的关系由线性模型表示不合适 拒绝原假设:认为在显著性水平α下,y 与诸x 之间有显著的线性关系 第二,对单个自变量的回归系数进行显著性检验。 00i H :β= 接受原假设:认为i β=0,自变量i x 对y 的线性效果并不显著 3.6 原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。 3.7 11 22 011122201122p p p p p p p ?????y x x x ??????y y (x x )(x x )(x x )????y x x )x x )x x )y =β +β+β++β-=β+β-+β-++β--ββ=-+-++-=对最小二乘法求得一般回归方程: ……对方程进行如下运算: …… ……*j j ?+β=……即 3.8 121321233132212312212331 312311232332 13 231313********* 111 r r r r r r r r r r r r r r r r r r r r r ?? ?= ? ????==-?= =-?= =-即证

第三章回归分析原理

第三章 回归分析原理 3·1、一元线性回归数学模型 按理说,在研究某一经济现象时,应该尽量考虑到与其有关各种有影响的因素或变量。但作为理论的科学研究来说,创造性地简化是其的基本要求,从西方经济学的基本理论中,我们可以看到在一般的理论分析中,至多只包含二、三个 变量的数量关系的分析或模型。 这里所讨论的一元线性回归数学模型,是数学模型的最简单形式。当然要注意的是,这里模型讨论是在真正回归意义上来进行的,也可称之为概率意义上的线性模型。 在非确定性意义上,或概率意义上讨论问题,首先要注意一个最基本的概念或思路问题,这就是总体和样本的概念。 我们的信念是任何事物在总体上总是存在客观规律的,虽然我们无论如何也不可能观察或得到总体,严格说来,总体是无限的。而另一方面,我们只可能观察或得到的是样本,显然样本肯定是总体的一部分,但又是有限的。 实际上概率论和数理统计的基本思想和目的,就是希望通过样本所反映出来的信息来揭示总体的规律性,这种想法或思路显然存在重大的问题。但另一方面,我们也必须承认,为了寻找总体的规律或客观规律,只能通过样本来进行,因为我们只可能得到样本。 在前面我们已经知道,用回归的方法和思路处理非确定性问题或散点图,实际上存在一些问题,亦即只有在某些情况下,回归的方法才是有效的。因此,在建立真正回归意义上建立其有效方法时,必须作出相应的假设条件。 基本假设条件: (1)假设概率函数)|(i i X Y P 或随机变量i Y 的分布对于所有i X 值,具有相同的方差2σ ,且2σ 是一个常数,亦即)(i Y Var =)(i Var μ=2σ。 (2)假设i Y 的期望值)(i Y E 位于同一条直线上,即其回归直线为 )(i Y E =i X βα+ 等价于 0)(=i E μ 这个假设是最核心的假设,它实际上表明)(i Y E 与i X 之间是确定性的关系。 (3)假设随机变量i Y 是完全独立的,亦即。j i u u Cov Y Y Cov j i j i ≠==,0),(),(

应用回归分析 课后习题参考答案

第二章 一元线性回归分析 思考与练习参考答案 一元线性回归有哪些基本假定? 答: 假设1、解释变量X 是确定性变量,Y 是随机变量; 假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=?2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, ?2 ) i=1,2, …,n 考虑过原点的线性回归模型 Y i =β1X i +εi i=1,2, …,n 误差εi (i=1,2, …,n )仍满足基本假定。求 β1的最小二乘估计 解: 得: 证明(式),?e i =0 ,?e i X i =0 。 证明:∑∑+-=-=n i i i n i X Y Y Y Q 1 2102 1 ))??(()?(ββ 其中: 即: ?e i =0 ,?e i X i =0 211 1 2)?()?(i n i i n i i i e X Y Y Y Q β∑∑==-=-=0)?(2?11 1 =--=??∑=i i n i i e X X Y Q ββ) () (?1 2 1 1 ∑∑===n i i n i i i X Y X β01????i i i i i Y X e Y Y ββ=+=-0 1 00??Q Q β β ??==??

回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。 答:由于εi ~N(0, ?2 ) i=1,2, …,n 所以Y i =β0 + β1X i + εi ~N (β0+β1X i , ?2 ) 最大似然函数: 使得Ln (L )最大的0 ?β,1?β就是β0,β1的最大似然估计值。 同时发现使得Ln (L )最大就是使得下式最小, ∑∑+-=-=n i i i n i X Y Y Y Q 1 21021 ))??(()?(ββ 上式恰好就是最小二乘估计的目标函数相同。值得注意的是:最大似然估计是在εi ~N (0, ?2 )的假设下求得,最小二乘估计则不要求分布假设。 所以在εi ~N(0, ?2 ) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。 证明0 ?β是β0的无偏估计。 证明:)1[)?()?(1 110∑∑==--=-=n i i xx i n i i Y L X X X Y n E X Y E E ββ )] )(1 ([])1([1011i i xx i n i i xx i n i X L X X X n E Y L X X X n E εββ++--=--=∑∑== 1010)()1 (])1([βεβεβ=--+=--+=∑∑==i xx i n i i xx i n i E L X X X n L X X X n E 证明 证明: )] ()1([])1([)?(102110i i xx i n i i xx i n i X Var L X X X n Y L X X X n Var Var εβββ++--=--=∑∑== () ) 1()1()?(2 2 2 1 2 2 xx n i i L X n X X X n Var +=-+=∑=σσβ

第一章课后习题解答(应用回归分析)

1、 变量间统计关系和函数关系的区别是什么 答:函数关系是一种确定性的关系,一个变量的变化能完全决定另一个变量的变化;统计关系是非确定的,尽管变量间的关系密切,但是变量不能由另一个或另一些变量唯一确定。 2、 回归分析与相关分析的区别和联系是什么 答:联系:刻画变量间的密切联系; 区别:一、回归分析中,变量y 称为因变量,处在被解释的地位,而在相关分析中,变量y 与x 处于平等地位;二、相关分析中y 与x 都是随机变量,而回归分析中y 是随机的,x 是非随机变量。三、回归分析不仅可以刻画线性关系的密切程度,还可以由回归方程进行预测和控制。 3、 回归模型中随机误差项ε的意义是什么主要包括哪些因素 答:随机误差项ε的引入,才能将变量间的关系描述为一个随机方程。主要包括:时间、费用、数据质量等的制约;数据采集过程中变量观测值的观测误差;理论模型设定的误差;其他随机误差。 4、 线性回归模型的基本假设是什么 答:1、解释变量非随机;2、样本量个数要多于解释变量(自变量)个数;3、高斯-马尔科夫条件;4、随机误差项相互独立,同分布于2(0,)N σ。 5、 回归变量设置的理论根据在设置回归变量时应注意哪些问题 答:因变量与自变量之间的因果关系。需注意问题:一、对所研究的问题背景要有足够了解;二、解释变量之间要求不相关;三、若某个重要的变量在实际中没有相应的统计数据,应考虑用相近的变量代替,或者由其他几个指标复合成一个新的指标;四、解释变量并非越多越好。 6、 收集、整理数据包括哪些内容 答:一、收集数据的类型(时间序列、截面数据);二、数据应注意可比性和数据统计口径问题(统计范围);三、整理数据时要注意出现“序列相关”和“异

第三章回归测法

第三章 回归预测法 基本内容 一、一元线性回归预测法 是指成对的两个变量数据分布大体上呈直线趋势时,运用合适的参数估计方法,求出一元线性回归模型,然后根据自变量与因变量之间的关系,预测因变量的趋势。由于很多社会经济现象之间都存在相关关系,因此,一元线性回归预测具有很广泛的应用。进行一元线性回归预测时,必须选用合适的统计方法估计模型参数,并对模型及其参数进行统计检验。 1、建立模型 一元线性回归模型: i i i x b b y μ++=10 其中,0b ,1b 是未知参数,i μ为剩余残差项或称随机扰动项。 2、用最小二乘法进行参数的估计时,要求i μ满足一定的假设条件: ①i μ是一个随机变量; ②i μ的均值为零,即()0=i E μ; ③在每一个时期中,i μ的方差为常量,即()2 σμ=i D ; ④各个i μ相互独立; ⑤i μ与自变量无关; 3、参数估计 用最小二乘法进行参数估计,得到的0b ,1b 的公式为: ()()() ∑∑---= 2 1x x y y x x b x b y b 10-= 4、进行检验 ①标准误差:估计值与因变量值间的平均平方误差。其计算公式为:()2 ?2 --= ∑n y y SE 。 ②可决系数:衡量自变量与因变量关系密切程度的指标,在0与1之间取值。其计算公式 为:()()()() ()()∑∑∑∑∑---=??? ??? ? ? ----=222 2 2 2 ?1y y y y y y x x y y x x R 。

③相关系数;计算公式为:()()()() ∑∑∑----=2 2 y y x x y y x x r 。 ④回归系数显著性检验 i 检验假设:0:10=b H ,0:11≠b H 。 ii 检验统计量:b S b t 1 = ~()2-n t ,其中() ∑-=2 x x SE S b 。 iii 检验规则:给定显著性水平α,若αt t >,则回归系数显著。 ⑤回归模型的显著性检验 i 检验假设::0H 回归方程不显著 ,:1H 回归方程显著。 ii 检验统计量:()()() 2??2 2 ---= ∑∑n y y y y F ~()2,1-n F 。 iii 检验规则:给定显著性水平α,若()2,1->n F F α,则回归方程显著。 ⑥得宾—沃森统计量(D —W ):检验i μ之间是否存在自相关关系。 ()∑∑==--= -n i i n i i i W D 1 222 1μ μμ,其中i i i y y ?-=μ。 5、进行预测 小样本情况下,近似的置信区间的常用公式为:置信区间=tSE y ±?。 二、多元线性回归预测法 社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归成为多元回归。多元回归与医院回归类似,可以用最小二乘法估计模型参数。也需对模型及模型参数进行统计检验。选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。 1、 建立模型—以二元线性回归模型为例 二元线性回归模型:222110i i x b x b b y μ+++=。类似使用最小二乘法进行参数估计。 2、 拟合优度指标 ①标准误差:对y 值与模型估计值之间的离差的一种度量。其计算公式为: ()3 ?2 --= ∑n y y SE

应用回归分析 课后答案 浙江万里学院

2.1 一元线性回归有哪些基本假定? 答: 假设1、解释变量X 是确定性变量,Y 是随机变量; 假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=σ2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, σ2 ) i=1,2, …,n 2.2 考虑过原点的线性回归模型 Y i =β1X i +εi i=1,2, …,n 误差εi (i=1,2, …,n )仍满足基本假定。求β1的最小二乘估计 解: 得: 2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。 证明: 其中: 即: ∑e i =0 ,∑e i X i =0 2.4回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。 ∑∑+-=-=n i i i n i X Y Y Y Q 1 21021 ))??(()?(ββ211 1 2 )?()?(i n i i n i i i e X Y Y Y Q β∑∑==-=-= 01????i i i i i Y X e Y Y ββ=+=-0 1 00??Q Q β β ??==??

答:由于εi ~N(0, σ2 ) i=1,2, …,n 所以Y i =β0 + β1X i + εi ~N (β0+β1X i , σ2 ) 最大似然函数: 使得Ln (L )最大的0 ?β,1?β就是β0,β1的最大似然估计值。 同时发现使得Ln (L )最大就是使得下式最小, 上式恰好就是最小二乘估计的目标函数相同。值得注意的是:最大似然估计是在εi ~N(0, σ2 )的假设下求得,最小二乘估计则不要求分布假设。 所以在εi ~N(0, σ2 ) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。 2.5 证明0 ?β是β0的无偏估计。 证明:)1[)?()?(111 0∑∑==--=-=n i i xx i n i i Y L X X X Y n E X Y E E ββ )] )(1 ([])1([1011i i xx i n i i xx i n i X L X X X n E Y L X X X n E εββ++--=--=∑∑== 1010)()1 (])1([βεβεβ=--+=--+=∑∑==i xx i n i i xx i n i E L X X X n L X X X n E 2.6 证明 证明: )] ()1([])1([)?(102110i i xx i n i i xx i n i X Var L X X X n Y L X X X n Var Var εβββ++--=--=∑∑== 2 2221 2]1[])(2)1[(σσxx xx i xx i n i L X n L X X X nL X X X n +=-+--=∑= 2.7 证明平方和分解公式:SST=SSE+SSR ∑∑+-=-=n i i i n i X Y Y Y Q 1 2102 1 ))??(()?(ββ() ) 1()1()?(2 2 2 1 2 2 xx n i i L X n X X X n Var +=-+=∑=σσβ

应用回归分析第三版·何晓群-第三章所有习题答案

应用回归分析第三章习题 3.1 基本假定: (1) rank (x )=p+1,X 为满秩矩阵 (2 (3 3.2 3.3 3.4 n 有关,当样本量n 1,其中隐含着一些虚假成分。因此,就模型的优劣程度。 3.5 首先,对回归方程的显著性进行整体上的检验——F 检验

接受原假设:在显著水平α下,表示随机变量 y与诸x之间的关系由线性模型表示不合适 拒绝原假设:认为在显著性水平α下,y与诸x之间有显著的线性关系 第二,对单个自变量的回归系数进行显著性检验。 y的线性效果并不显著 3.6 原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。 3.7 3.8

3.9 由上两式可知,j个因素的重要程度, 3.10 【没整出来……】 3.11 (1)计算可知,y与x1 x2 x3 的相关关系是:

则相关关系矩阵如下: (3)拟合优度检验

决定系数R2=0.708 R=0.898较大所以认为拟合度较高 (4)对回归方正作整体显著性检验 ANOVA b Model Sum of Squares df Mean Square F Sig. 1Regression13655.37034551.7908.283.015a Residual3297.1306549.522 Total16952.5009

ANOVA b Model Sum of Squares df Mean Square F Sig. 1Regression13655.37034551.7908.283.015a Residual3297.1306549.522 Total16952.5009 a. Predictors: (Constant), 居民非商品支出x3, 工业总产值x1, 农业总产值x2 b. Dependent Variable: 货运总量y F=8.283 取α=0.05时 P=0.015<0.05所以认为回归方程在整体上拟合的好 (5)对每个回归系数作显著性检验 α=0.05时,x3并未通过显著性检验

应用回归分析第三章课后习题整理

=??????? ??yn y y 21 ? ?111 12111xn x x 22212xn x x ???????xnp p x p x 21 ??????? ??p βββ 10 +? ??? ??? ??n εεε 21即y=x β+ε 基本假定 (1)解释变量x1,x2...,xp 是确定性变量,不是随机变量,且要求rank(X)=p+1

1 )())1((11)1(11)1(11)(11]))(()([11)(11)(11)11()(21)(1 2221112112 1 12 1 2 22222 +===?+-?--=---=---=--=+--=--=--=--=++=-=∑∑∑∑∑∑∑∑∑========∧=∧ p h H tr p n p n h p n h p n e D p n e E e D p n e E p n e E p n SSE p n E E en e e y y SSE n n n n n n n n n τττττττττττττττττττττσσσσσ注 不能断定这个方程一定很理想,因为样本决定系数与回归方程中自 变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较多,使样本量与自变量的个数接近时,2R 易接近1,其中隐藏一些虚假成分。 当接受H 0时,认定在给定的显著性水平α下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新考虑建模问题。 当拒绝H 0时,我们也不能过于相信这个检验,认为这个回归模型已经完美了,当拒绝H 0时,我们只能认为这个模型在一定程度上说明了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我们漏掉了一些重要的自变量。 中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计值 p ∧ ∧ ∧ βββ ,,21比一般的经验回归方程减少了一个未知参数,在变量较多

应用回归分析 第三章课后习题整理汇编

3.1=??????? ??yn y y 21 ??111 12111xn x x 22212xn x x ???????xnp p x p x 21 ??????? ??p βββ 10 +?????? ? ??n εεε 21即y=x β+ε 基本假定 (1)解释变量x1,x2...,xp 是确定性变量,不是随机变量,且要求rank(X)=p+1

1 )())1((11)1(11)1(11)(11]))(()([11)(11)(11)11()(21)(1 2221112112 1 12 1 2 22222 +===?+-?--=---=---=--=+--=--=--=--=++=-=∑∑∑∑∑∑∑∑∑========∧=∧ p h H tr p n p n h p n h p n e D p n e E e D p n e E p n e E p n SSE p n E E en e e y y SSE n n n n n n n n n τττττττττττττττττττττσσσσσ注 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较多,使样本量与自变量的个数接近时,2R 易接近1,其中隐藏一些虚假成分。 3.5当接受H 0时,认定在给定的显著性水平α下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新考虑建模问题。 当拒绝H 0时,我们也不能过于相信这个检验,认为这个回归模型已经完美了,当拒绝H 0时,我们只能认为这个模型在一定程度上说明了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我们漏掉了一些重要的自变量。 3.6中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计值p ∧ ∧ ∧ βββ ,,21比一般的经验回归方程减少了一个未知参数,在变量较

相关主题
文本预览
相关文档 最新文档