第三章-K元线性回归模型
- 格式:doc
- 大小:251.50 KB
- 文档页数:9
第三章多元线性回归模型一、名词解释1、多元线性回归模型:在现实经济活动中往往存在一个变量受到其他多个变量影响的现象,表现在线性回归模型中有多个解释变量,这样的模型被称做多元线性回归模型,多元是指多个解释变量2、调整的可决系数R2:又叫调整的决定系数,是一个用于描述多个解释变量对被解释变量的联合影响程2 2-2 2 门度的统计量‘克服了R随解释变量的增加而增大的缺陷,与R的矢系为R2=1 -(1 -R2)-n — k —1 3、偏回归系数:在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该变量增加1单位对被解释变量带来的平均影响程度。
4、正规方程组:采用OLS方法估计线性回归模型时,对残差平方和矢于各参数求偏导,并令偏导数为0后得到的方程组,其矩阵形式为XX A XYo5、方程显著1•生检验:是针对所有解释变量对被解释变量的联合影响是否显著所作的检验,旨在对模型中被解释变量与解释变量之间的线性矢系在总体上是否显著成立作岀判断。
、单项选择题1、C : F统计量的意义2、A: F统计量的定义22 Z ei3、B :随机误差项方差的估计值:? ・n _k_14、A :书上P92和P93公式5、C: A参看导论部分内容;B在判断多重共线等问题的时候,很有必要;D在相同解释变量情况下可以衡量6、C :书上P99,比较F统计量和可决系数的公式即可7、A :书P818、D : A截距项可以不管它;B不考虑betaO ;C相矢矢系与因果矢系的辨析9、B :注意!只是在服从基本假设的前提下,统计量才服从相应的分布10、 D : AB不能简单通过可决系数判断模型好坏,还要考虑样本量、异方差等问题;三、多项选择题1、ACDE :概念性2、BD :概念性3、BCD :总体显著,则至少一个参数不为04、BC :参考可决系数和F统计量的公式5、AD :考虑极端情况,ESS=O,可发现CE错四、判断题、1 ' " 2、” 3 > X 4 > X:调整的可决系数5、”五、简答题1、答:多元线性回归模型与一元线性回归模型的区别表现在如下几个方面:一是解释变量的个数不同;二是模型的经典假设不同,多元线性回归模型比一元线性回归模型多了个“解释变量之间不存在线性相矢尖系”的假定:三是多元线性回归模型的参数估计式的表达更为复杂。
第三章 一元线性回归模型一、预备知识(一)相关概念对于一个双变量总体,若由基础理论,变量和变量之间存在因果),(i i x y x y 关系,或的变异可用来解释的变异。
为检验两变量间因果关系是否存在、x y 度量自变量对因变量影响的强弱与显著性以及利用解释变量去预测因变量x y x ,引入一元回归分析这一工具。
y 将给定条件下的均值i x i yi i i x x y E 10)|(ββ+=(3.1)定义为总体回归函数(PopulationRegressionFunction,PRF )。
定义为误差项(errorterm ),记为,即,这样)|(i i i x y E y -i μ)|(i i i i x y E y -=μ,或i i i i x y E y μ+=)|(i i i x y μββ++=10(3.2)(3.2)式称为总体回归模型或者随机总体回归函数。
其中,称为解释变量x (explanatory variable )或自变量(independent variable );称为被解释y 变量(explained variable )或因变量(dependent variable );误差项解释μ了因变量的变动中不能完全被自变量所解释的部分。
误差项的构成包括以下四个部分:(1)未纳入模型变量的影响(2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。
在总体回归模型(3.2)中参数是未知的,是不可观察的,统计计10,ββi μ量分析的目标之一就是估计模型的未知参数。
给定一组随机样本,对(3.1)式进行估计,若的估计量分别记n i y x i i ,,2,1),,( =10,),|(ββi i x y E 为,则定义3.3式为样本回归函数^1^0^,,ββi y ()i i x y ^1^0^ββ+=n i ,,2,1 =(3.3)注意,样本回归函数随着样本的不同而不同,也就是说是随机变量,^1^0,ββ它们的随机性是由于的随机性(同一个可能对应不同的)与的变异共i y i x i y x 同引起的。
3.3 多元线性回归模型的检验一、判断题1、在线性回归模型中,为解释变量或者被解释变量重新选取单位(比如,元变换成千元),会影响t 统计量和 2R 的数值。
( F )2、在多元线性回归中,t 检验和F 检验缺一不可。
( T )3、回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。
( F )4、多元线性回归中,可决系数2R 是评价模型拟合优度好坏的最佳标准。
( F )二 、单项选择1、在模型0112233t t t t t Y X X X ββββμ=++++的回归分析结果中,有462.58F =,0.000000F p =的值,则表明 ( C )A 、解释变量2t X 对t Y 的影响不显著B 、解释变量1t X 对t Y 的影响显著C 、模型所描述的变量之间的线性关系总体上显著D 、解释变量2t X 和1t X 对t Y 的影响显著2、设k 为回归模型中的实解释变量的个数,n 为样本容量。
则对回归模型进行总体显著性 检验(F 检验)时构造的F 统计量为 ( A )A 、1)ESS k F RSS n k =--B 、(1)()ESS k F RSS n k -=- C 、ESS F RSS = D 、1RSS F TSS=- 3、在多元回归中,调整后的可决系数2R 与可决系数2R 的关系为 ( A ) A 、22R R < B 、22R R >C 、22R R =D 、2R 与2R 的关系不能确定4、根据调整的可决系数2R 与F 统计量的关系可知,当21R =时,有 ( C )A 、F=0B 、F=-1C 、F →+∞D 、F=-∞5、下面哪一表述是正确的 ( D ) A 、线性回归模型01i i i Y X ββμ=++的零均值假设是指110ni i n μ==∑ B 、对模型01122i i i i Y X X βββμ=+++进行方程显著性检验(即F 检验),检验的零假 设是0012:0H βββ===C 、相关系数较大意味着两个变量存在较强的因果关系D 、当随机误差项的方差估计量等于零时,说明被解释变量与解释变量之间为函数关系5、对于01122ˆˆˆˆi i i k ki iY X X X e ββββ=+++++…,如果原模型满足线性模型的基本假设则 在零假设0j β=下,统计量ˆˆ()j j s ββ(其中ˆ()js β是j β的标准误差)服从 (B )A 、()t n k -B 、(1)t n k --C 、(1,)F k n k --D 、(,1)F k n k --6、在由的一组样本估计的、包含3个解释变量的线性回归模型中,计算得多重可决系数为0.8500,则调整后的多重可决系数为( D )A 、8603B 、 0.8389C 、0.8655D 、0.83277、可决系数R 2=0.8,说明回归直线能解释被解释变量总变差的:( A )A 、 80%B 、 64%C 、 20%D 、 89%8、线性回归模型01122......t t t k kt t y b b x b x b x u =+++++ 中,检验0:0(0,1,2,...)t H b i k ==时,所用的统计量服从( C )A.t(n-k+1)B.t(n-k-2)C.t(n-k-1)D.t(n-k+2)三、多项选择题1、对模型满足所有假定条件的模型01122i i i i Y X X βββμ=+++进行总体显著性检验,如果检验结果总体线性关系显著,则很可能出现 ( BCD )A 、120ββ==B 、120,0ββ≠=C 、120,0ββ≠≠D 、120,0ββ=≠E 、120,0ββ==2、设k 为回归模型中的参数个数(包含截距项)则总体线性回归模型进行显著性检验时所 用的F 统计量可以表示为 ( BC )A 、()()()∑∑---1k e k n Y Y 2i 2i i //ˆ B 、()()()∑∑---k n e 1k Y Y 2i2ii //ˆ C 、()()()k n R 11k R 22---// D 、()()()1k R k n R 122---// 30n =E 、()()()1k R 1k n R 22---// 3、在多元回归分析中,调整的可决系数2R 与可决系数2R 之间 ( AD )A 、22R R <B 、22R R ≥C 、2R 只可能大于零D 、2R 可能为负值E 、2R 不可能为负值四、简答题1.在多元线性回归分析中,为什么用修正的可决系数衡量估计模型对样本观测值的拟合优度?答:因为人们发现随着模型中解释变量的增多,多重可决系数2R 的值往往会变大,从而增加了模型的解释功能。
【最新整理,下载后即可编辑】第三章 K 元线性回归模型一、填空题1. 对于模型i ik k i i i u X X X Y +++++=ββββ 22110,i=1,2,…,n,一般经验认为,满足模型估计的基本要求的样本容量为_ _2. 对于总体线性回归模型i i i i i u X X X Y ++++=3322110ββββ,运用最小二乘法欲得到参数估计量,所要求的最小样本容量n 应满足 或至少_________。
3. 多元线性计量经济学模型的矩阵形式 ,对应的样本线性回归模型的矩阵形式 ,模型的最小二乘参数估计量 及其方差估计量 。
4. 总平方和可以分解为 回归平方和 和 残差平方和 ,可决系数为 。
5. 多元回归方程中每个解释变量的系数β(偏回归系数),指解释变量变化一个单位引起的被解释变量平均变化 β 个单位。
6. 线性模型的含义,就变量而言,指的是回归模型变量的 ;就参数而言,指的是回归模型中参数的 。
通常线性回归模型指的是 。
二、问答题1. 什么是多元回归模型?它与一元、二元回归模型有何区别?2. 极大似然法(maximum likehood )的原理是什么?3. 什么是拟合优度(R 2)检验?有什么作用?指对样本回归直线与样本观测值之间的拟合程度的检验。
4. 可决系数R 2低的可能的原因是什么?5. 多元回归的判断系数R 2具有什么性质?运用R 2时应注意什么问题?6. 多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有效性的过程中,哪些基本假设起了作用?7. 说明区间估计的含义。
三、实践题1.下表给出三变量模型的回归结果:方差来源平方和自由度均方差(MSS) 回归平方和(ESS)65965 3 21988.33 残差平方和(RSS)77 11 7 总平方和(TSS)66042 14 4717.48要求:(1)样本容量是多少?(2)求RSS ?(3)ESS 和RSS 的自由度各是多少?(4)求2R 和2R ? (5)检验假设:1X 和2X 对Y 无影响。
第三章 K 元线性回归模型一、填空题1. 对于模型i ik k i i i u X X X Y +++++=ββββΛ22110,i=1,2,…,n ,一般经验认为,满足模型估计的基本要求的样本容量为_ _2. 对于总体线性回归模型i i i i i u X X X Y ++++=3322110ββββ,运用最小二乘法欲得到参数估计量,所要求的最小样本容量n 应满足 或至少_________。
3. 多元线性计量经济学模型的矩阵形式 ,对应的样本线性回归模型的矩阵形式 ,模型的最小二乘参数估计量 及其方差估计量 。
4. 总平方和可以分解为 回归平方和 和 残差平方和 ,可决系数为 。
5. 多元回归方程中每个解释变量的系数β(偏回归系数),指解释变量变化一个单位引起的被解释变量平均变化 β 个单位。
6. 线性模型的含义,就变量而言,指的是回归模型变量的 ;就参数而言,指的是回归模型中参数的 。
通常线性回归模型指的是 。
二、问答题1. 什么是多元回归模型?它与一元、二元回归模型有何区别? 2. 极大似然法(maximum likehood )的原理是什么? 3. 什么是拟合优度(R 2)检验?有什么作用?指对样本回归直线与样本观测值之间的拟合程度的检验。
4. 可决系数R 2低的可能的原因是什么?5. 多元回归的判断系数R 2具有什么性质?运用R 2时应注意什么问题?6. 多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有效性的过程中,哪些基本假设起了作用? 7. 说明区间估计的含义。
三、实践题1.下表给出三变量模型的回归结果:方差来源 平方和(SS )自由度(d.f.)均方差(MSS) 回归平方和(ESS) 65965 3 21988.33残差平方和(RSS) 77 11 7 总平方和(TSS)66042144717.48要求:(1)样本容量是多少? (2)求RSS ?(3)ESS 和RSS 的自由度各是多少? (4)求2R 和2R ?(5)检验假设:1X 和2X 对Y 无影响。
你用什么假设检验?为什么? (6)根据以上信息,你能否确定1X 和2X 各自对Y 的贡献吗?2.下面给出依据15个观察值计算得到的数据,其中小写字母代表了各值与其样本均值的离差。
693.367=Y , 760.4021=X ,0.82=X ,269.660422=∑i y096.8485521=∑ix,0.28022=∑ix,346.747781=∑ii xy9.42502=∑ii xy ,0.479621=∑ii x x要求:(1)估计三个多元回归系数;(2)估计它们的标准差;并求出2R 与2R ?(3)估计1β、2β95%的置信区间;(4)在%5=α下,检验估计的每个回归系数的统计显著性(双尾检验);(5)给出方差分析表。
(1)3.考虑以下方程(括号内为估计标准差):19=n ,873.02=R(0.658) (0.072) (0.080) 560.2004.0364.0562.8ˆ1tt t i U P P W -++=-其中:W —t 年的每位雇员的工资和薪水;P —t 年的物价水平;U —t 年的失业率。
要求:(1)对个人收入估计的斜率系数进行假设检验;(2)讨论1-t P 在理论上的正确性,对本模型的正确性进行讨论;1-t P 是否应从方程中删除?为什么?4.克莱因和戈德伯格曾用1921-1941年与1945-1950年(1942-1944年战争期间略去)美国国内消费C 和工资收入W 、非工资—非农业收入P 、农业收入A 的共27年时间序列资料,利用普通最小二乘法估计得出了下列回归方程:(1.09)(0.452) (0.17) (8.92) 121.0452.0059.1133.8t t t t A P W C +++=,107.37F ,95.02==R式中括号中的数字为相应参数估计量的标准误。
试对该模型进行评价,指出其中存在的问题。
(显著性水平%5=α,已知069.2)23( t ,03.3)23,3(0.02505.0==F )5.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为fedu medu sibs edu 210.0131.0094.036.10++-=,R 2=0.214式中,edu 为劳动力受教育年数,sibs 为该劳动力家庭中兄弟姐妹的个数,medu 与fedu 分别为母亲与父亲受到教育的年数。
问(1)sibs 是否具有预期的影响?为什么?若medu 与fedu 保持不变,为了使预测的受教育水平减少一年,需要sibs 增加多少?(2)请对medu 的系数给予适当的解释。
(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数为12年,另一个的父母受教育的年数为16年,则两人受教育的年数预期相差多少?6.以企业研发支出(R&D )占销售额的比重为被解释变量(Y ),以企业销售额(X1)与利润占销售额的比重(X2)为解释变量,一个有32个企业的样本估计结果如下:099.0,)046.0()22.0()37.1(05.0)log(32.0472.0221=++=R X X Y其中括号中为系数估计值的标准差。
(1)解释log(X1)的系数。
如果X1增加10%,估计Y 会变化多少个百分点?这在经济上是一个很大的影响吗?(2)针对R&D 强度随销售额的增加而提高这一备择假设,检验它不虽X1而变化的假设。
分别在5%和10%的显著性水平上进行这个检验。
(3)利润占销售额的比重X2对R&D 强度Y 是否在统计上有显著的影响?(3)对X2,参数估计值的t 统计值为0.05/0.46=1.087,它比在10%的显著性水平下的临界值还小,因此可以认为它对Y 在统计上没有显著的影响。
7.下表为有关经批准的私人住房单位及其决定因素的4个模型的估计量和相关统计值(括号内为p-值)(如果某项为空,则意味着模型中没有此变量)。
数据为美国40个城市的数据。
模型如下:μββββββββ++++++++=statetax localtax unemp popchangincome value density g hou 76543210sin式中housing ——实际颁发的建筑许可证数量,density ——每平方英里的人口密度,value ——自由房屋的均值(单位:百美元),income ——平均家庭的收入(单位:千美元),popchang ——1980~1992年的人口增长百分比,unemp ——失业率,localtax ——人均交纳的地方税,statetax ——人均缴纳的州税 变量 模型A 模型B 模型C 模型D C 813 (0.74) -392 (0.81) -1279 (0.34) -973 (0.44) Density0.075 (0.43)0.062 (0.32)0.042 (0.47)Value -0.855 (0.13) -0.873 (0.11) -0.994 (0.06) -0.778 (0.07) Income 110.41 (0.14) 133.03 (0.04) 125.71 (0.05) 116.60 (0.06) Popchang 26.77 (0.11) 29.19 (0.06) 29.41 (0.001) 24.86 (0.08) Unemp -76.55 (0.48) Localtax -0.061 (0.95)Statetax -1.006 (0.40) -1.004 (0.37) RSS 4.763e+7 4.843e+7 4.962e+7 5.038e+7 R 20.349 0.338 0.322 0.312 e S1.488e+6 1.424e+6 1.418e+6 1.399e+6 AIC1.776e+61.634e+61.593e+61.538e+6(1)检验模型A 中的每一个回归系数在10%水平下是否为零(括号中的值为双边备择p-值)。
根据检验结果,你认为应该把变量保留在模型中还是去掉?(2)在模型A 中,在10%水平下检验联合假设H 0:βi =0(i=1,5,6,7)。
说明被择假设,计算检验统计值,说明其在零假设条件下的分布,拒绝或接受零假设的标准。
说明你的结论。
(3)哪个模型是“最优的”?解释你的选择标准。
(4)说明最优模型中有哪些系数的符号是“错误的”。
说明你的预期符号并解释原因。
确认其是否为正确符号。
参考答案 一、填空题1.n≥30或至少n≥3(k+1);2. n≥30或至少n≥24;3.u X Y +=β,e Xb Y +=,Y X X X b ''=-1)(,12)()(-'=ii u X X b Var σ; 4.回归平方和;残差平方和;回归平方和与残差平方和之比。
5. β ;6.非线性;非线性;变量非线性而参数为线性。
二、问答题1. 答:回归模型与一元线性回归模型的区别表现在如下几方面:一是解释变量的个数不同;二是模型的经典假设不同,多元线性回归模型比一元线性回归模型多了“解释变量之间不存在线性相关关系”的假定;三是多元线性回归模型的参数估计式的表达更复杂。
2. 答:极大似然法(ML )是不同于OLS 法的另一种模型参数估计方法。
ML 方法需要利用有关模型随机扰动项分布的知识构建似然函数,然后利用使似然函数最大的方法得出参数估计。
其基本思路是确定观察到的样本数据最可能来自某个分布,该分布的参数值即为总体参数的估计量。
3. 答:所谓拟合优度检验,指对样本回归直线与样本观测值之间拟合程度的检验。
如果所有的观测值都落在回归线上,称为“完全拟合”。
这种情况很少发生。
一般情况下,总会出现围绕在回归直线周围的正或负的残差。
通过对残差的分析,有助于衡量回归直线与样本观察值的拟合程度。
反映回归模型拟合优劣的一个数量指标是样本可决系数R 2,也称判定系数。
另一个是对回归模型的F 统计检验。
估计方程的目的常常不是为了获得高R 2,而是要得到可靠的参数估计,以便利用估计结果进行统计推断。
注意不要将判断系数作为评价模型优劣的唯一标准。
4. 答:可能由于:X 不是Y 的良好解释变量;模型形式设定有误。
一般地,利用时间序列数据估计的模型R 2值较高,而利用截面数据估计的模型R 2值较低。
5. 答:R 2的取值取决在0~1之间。
若Y 的全部变异都得到了解释,则R 2=1,若解释变量没有如何解释能力,有R 2=0。
在模型中不包含常数项的情况下,R 2的值可能超出0~1范围;是解释变量的非减函数,即增加解释变量不会降低R 2,在大多数情况下,R 2会增大。