计量第三章答案讲解
- 格式:doc
- 大小:556.00 KB
- 文档页数:10
第三章 一元经典线性回归模型的基本假设与检验问题 3.1TSS,RSS,ESS 的自由度如何计算?直观含义是什么?答:对于一元回归模型,残差平方和RSS 的自由度是(2)n -,它表示独立观察值的个数。
对于既定的自变量和估计量1ˆβ和2ˆβ,n 个残差2ˆˆˆi i i iu Y X ββ=-- 必须满足正规方程组。
因此,n 个残差中只有(2)n -个可以“自由取值”,其余两个随之确定。
所以RSS 的自由度是(2)n -。
TSS 的自由度是(1)n -:n 个离差之和等于0,这意味着,n 个数受到一个约束。
由于TSS=ESS+RSS ,回归平方和ESS 的自由度是1。
3.2 为什么做单边检验时,犯第一类错误的概率的评估会下调一半?答:选定显著性水平α之后,对应的临界值记为/2t α,则双边检验的拒绝区域为/2||t t α≥。
单边检验时,对参数的符号有先验估计,拒绝区域变为/2t t α≥或/2t t α≤-,故对犯第I 类错误的概率的评估下下降一半。
3.3 常常把高斯-马尔科夫定理简述为:OLS 估计量具有BULE 性质,其含义是什么? 答:含义是:(1)它是线性的(linear ):OLS 估计量是因变量的线性函数。
(2)它是无偏的(unbiased ):估计量的均值或数学期望等于真实的参数。
比如22ˆ()E ββ=。
(3)它是最优的或有效的(Best or efficient ):如果存在其它线性无偏的估计量,其方差必定大于OLS 估计量的方差。
3.4 做显著性检验时,针对的是总体回归函数(PRF )的系数还是样本回归函数(SRF )的系数?为什么?答:做显著性检验时,针对的是总体回归函数(SRF )的系数。
总体回归函数是未知的,也是研究者所关心的,所以只能利用样本回归函数来推测总体回归函数,后者是利用样本数据计算所得,是已知的,无需检验。
(习题)3.5 以下陈述正确吗?不论正确与否,请说明理由。
统计学2班第二次作业1、Ŷi =-151.0263 + 0.1179X 1i + 1.5452X 2iT= (-3.066806) (6.652983) (3.378064)R 2=0.934331 R 2=0.92964 F=191.1894 n=31⑴模型估计结果说明,各省市旅游外汇收入Y 受旅行社职工人数X 1,国际旅游人数X 2的影响。
由所估计出的参数可知,在假定其他变量不变的情况下,当旅行社职工人数每增加1人,各省市旅游外汇收入增加0.1179百万美元。
在嘉定其他变量不变的情况下。
当国际旅游人数每增加1万人,各省市旅游外汇收入增加1.5452百万美元。
⑵由题已知,估计的回归系数β1的T 值为:t (β1)=6.652983。
β2的T 值分为: t (β2)=3.378064。
α=0.05.查得自由度为n-2=22-2=29的临界值t 0.025(29)=2.045229因为t (β1)=6.652983≥t 0.025(29)=2.045229.所以拒绝原假设H 0:β1=0。
表明在显著性水平α=0.05下,当其他解释变量不变的情况下,旅行社职工人数X 1对各省市旅游外汇收入Y 有显著性影响。
因为 t (β2)=3.378064≥t 0.025(29)=2.045229,所以拒绝原假设H 0:β2=0表明在显著性水平α=0.05下,当其他解释变量不变的情况下,和国际旅游人数X 2对各省市旅游外汇收入Y 有显著性影响。
⑶正对H O :β1=β2=0,给定显著水性水平α=0.05,自由度为k-1=2,n-k=28的临界值F 0.05(2,28)=3.34038。
由题已知F=191.1894>F 0.05(2,28)=3.34038,应拒绝原假设H O :β1=β2=0,说明回归方程显著,即旅行社职工人数和旅游人数变量联合起来对各省市旅游外汇收入有显著影响。
2、⑴样本容量n=15 残差平方和RSS=66042-65965=77 回归平方和ESS 的自由度为K-1=2 残差平方和RSS 的自由度为n-k=13⑵可决系数R 2=TSS ESS =6604265965=0.99883 调整的可决系数R 2=1-(1-R 2)kn n --1=1-(1-0.99883)1214=0.99863 ⑶利用可决系数R 2=0.99883,调整的可决系数R 2=0.99863,说明模型对样本的拟合很好。
第三章练习题及参考解答3.1进入21世纪后,中国的家用汽车增长很快。
家用汽车的拥有量受到经济增长、公共服务、市场价格、交通状况、社会环境、政策因素,都会影响中国汽车拥有量。
为了研究一些主要因素与家用汽车拥有量的数量关系,选择“百户拥有家用汽车量”、“人均地区生产总值”、“城镇人口比重”、“居民消费价格指数”等变量,2016年全国各省市区的有关数据如表3.5。
表3.5 2016年各地区的百户拥有家用汽车量等数据资料来源:中国统计年鉴2017.中国统计出版社1)建立百户拥有家用汽车量计量经济模型,估计参数并对模型加以检验,检验结论的依据是什么?。
2)分析模型参数估计结果的经济意义,你如何解读模型估计检验的结果? 3) 你认为模型还可以如何改进?【练习题3.1 参考解答】:1)建立线性回归模型: 1223344t t t t t Y X X X u ββββ=++++ 回归结果如下:由F 统计量为14.69998, P 值为0.000007,可判断模型整体上显著, “人均地区生产总值”、“城镇人口比重”、“居民消费价格指数”等变量联合起来对百户拥有家用汽车量有显著影响。
解释变量参数的t 统计量的绝对值均大于临界值0.025(27) 2.052t =,或P 值均明显小于0.05α=,表明在其他变量不变的情况下,“人均地区生产总值”、“城镇人口比重”、“居民消费价格指数”分别对百户拥有家用汽车量都有显著影响。
2)X2的参数估计值为4.8117,表明随着经济的增长,人均地区生产总值每增加1万元,平均说来百户拥有家用汽车量将增加近5辆。
由于城镇公共交通的大力发展,有减少家用汽车的必要性,X3的参数估计值为-0.4449,表明随着城镇化的推进,“城镇人口比重”每增加1%,平均说来百户拥有家用汽车量将减少0.4449辆。
汽车价格和使用费用的提高将抑制家用汽车的使用, X4的参数估计值为-5.7685,表明随着家用汽车使用成本的提高, “居民消费价格指数”每增加1个百分点,平均说来百户拥有家用汽车量将减少5.7685辆。
经济运距:50m~100m。
定额中,推土机分为75kW、90kW、105kW、135kW、165kW、240kW经济运距:拖式铲运机100~800m;自行式铲运机定额中,拖式铲运机(含头)分为8m³、10m³、12m³三种类型。
2.“2m³的装载机”配备什么型号的自卸汽车?答:2m³装载机配备8t自卸汽车或路基,以提高爆破效果)。
当路线通过波浪起伏的峡谷或鸡爪地形地段、横切山包或山嘴、凌空面较多时,采用抛坍或抛掷爆破效果更为显著。
6.带液压镐挖掘机破碎挖石方如何套取定额?静力爆破石方如何套取定额?挖掘机带破碎锤破碎石方如何套取定额?答:挖掘机破碎:静力爆破石方:挖掘机带破碎锤破碎石方:7.路基工程中填前压实增加的填方量是否需要计量?答:需要计量,根据《公路工程标准施工招标文件》(2018年版·第三册),在204-1-a利用土方中计量。
答:二级及二级以上等级公路的填前压实应采用压路机压实。
9.整修边坡的工程量应如何确定?答:整修边坡的工程量,按公路路基长度计算。
路基长度,即扣除主线桥梁、隧道和互通式立体交叉的主线长度;独立桥梁或隧道工程为引道或接线长度。
10.路基工程中洒水工程量如何计算?答:U=P╳(I–I')╳ρ/ρ水其中:U为洒水工程量(m³);P为需碾压土方体积(m³);I为土的最佳含水率;21.清除表土与除草定额同时套用是否有重复?答:清除表土定额和除草定额不可同时采用。
清除表土是指将路基范围内不符合设计要求的地表表层土清除的施工作业过程。
定额系按将表土推挖至路基外进行编制的,如需远运时可按路基土方运输定额另行计算。
一般施工作业是将表层土壤和地上生长的杂草一同清除,因此,清除表土定额和除草定额不可同时采用。
22.《公路工程预算定额》第一章章说明中“因路基沉陷需增加填筑的土、石方数量”中的路基沉陷怎么理解?答:路基沉陷是指路基表面在垂直方向产生的不均匀变形。
第三章 一元经典线性回归模型的基本假设与检验问题 3.1TSS,RSS,ESS 的自由度如何计算?直观含义是什么?答:对于一元回归模型,残差平方和RSS 的自由度是(2)n -,它表示独立观察值的个数。
对于既定的自变量和估计量1ˆβ和2ˆβ,n 个残差 必须满足正规方程组。
因此,n 个残差中只有(2)n -个可以“自由取值”,其余两个随之确定。
所以RSS 的自由度是(2)n -。
TSS 的自由度是(1)n -:n 个离差之和等于0,这意味着,n 个数受到一个约束。
由于TSS=ESS+RSS ,回归平方和ESS 的自由度是1。
3.2 为什么做单边检验时,犯第一类错误的概率的评估会下调一半?答:选定显著性水平α之后,对应的临界值记为/2t α,则双边检验的拒绝区域为/2||t t α≥。
单边检验时,对参数的符号有先验估计,拒绝区域变为/2t t α≥或/2t t α≤-,故对犯第I 类错误的概率的评估下下降一半。
3.3 常常把高斯-马尔科夫定理简述为:OLS 估计量具有BULE 性质,其含义是什么? 答:含义是:(1)它是线性的(linear ):OLS 估计量是因变量的线性函数。
(2)它是无偏的(unbiased ):估计量的均值或数学期望等于真实的参数。
比如22ˆ()E ββ=。
(3)它是最优的或有效的(Best or efficient ):如果存在其它线性无偏的估计量,其方差必定大于OLS 估计量的方差。
3.4 做显著性检验时,针对的是总体回归函数(PRF )的系数还是样本回归函数(SRF )的系数?为什么?答:做显著性检验时,针对的是总体回归函数(SRF )的系数。
总体回归函数是未知的,也是研究者所关心的,所以只能利用样本回归函数来推测总体回归函数,后者是利用样本数据计算所得,是已知的,无需检验。
(习题)3.5 以下陈述正确吗?不论正确与否,请说明理由。
(1)X值越接近样本均值,斜率的OLS估计值就越精确。
第三章 测量数据处理第一节 测量误差的处理1、如何发现存在系统误差?○1、在规定的测量条件下多次测量同一个被测量,从所得测量结果与计量标准所复现的量值之差可以发现并得到恒定的系统误差的估计值。
○2、在测量条件改变时,测量结果按某一确定的规律变化,可能是线性地或非线性地增长或减小,就可以发现测量结果中存在可变的系统误差。
2、减小系统误差的方法有哪些?○1采用修正的方法。
○2在实验过程中尽可能减少或消除一切产生系统误差的因素。
○3选择适当的测量方法,使系统误差抵消而不致带入测量结果中。
3、举例说明几种消除恒定系统误差的方法?○1异号法 ○2交换法 ○3替代法 4、修正值与系统误差估计值有什么关系?答:修正值的大小等于系统误差估计值的大小,但符号相反。
5、修正系统误差有哪些方法?1、在测量结果上加修正值2、对测量结果乘修正因子3、画修正曲线4、制定修正值表6、写出贝塞尔公式,举例说明贝塞尔公式法计算实验标准偏差的全过程从有限独立重复测量的一系列测量值代入公式中得到估计标准偏差()112-⎪⎭⎫ ⎝⎛-=∑=-n x x x s n i i -x n 次测量的算术平均值∑=-=ni xi n x 11i x 第i 次测量的测得值--=x x v i i 残差V=n-1 自由度S(x)-(测量值x 的)实验标准偏差1计算平均值、2计算残3计算残差平方和4计算标准偏差11、计量标准的重复性与测量结果的重复性是否有区别?计量标准的重复性:是指在相同测量条件下,重复测量同一被测量时,计量标准提供相近示值的能力。
测量结果的重复性:是测量结果的不确定度的一个分量,它是获得测量结果时,各种随机影响因素的综合反映,包括了所用的计量标准,配套仪器,环境条件等因素以及实际被测量的随机变化。
由于被测对象也会对测量结果的分散性有影响,特别是当被测对象是非实物量具的测量仪器时,因此,测量结果的分散性通常比计量标准本身所引入的分散性稍大。
第三章 一元经典线性回归模型的基本假设与检验问题 3.1TSS,RSS,ESS 的自由度如何计算?直观含义是什么?答:对于一元回归模型,残差平方和RSS 的自由度是(2)n -,它表示独立观察值的个数。
对于既定的自变量和估计量1ˆβ和2ˆβ,n 个残差2ˆˆˆi i i iu Y X ββ=-- 必须满足正规方程组。
因此,n 个残差中只有(2)n -个可以“自由取值”,其余两个随之确定。
所以RSS 的自由度是(2)n -。
TSS 的自由度是(1)n -:n 个离差之和等于0,这意味着,n 个数受到一个约束。
由于TSS=ESS+RSS ,回归平方和ESS 的自由度是1。
3.2 为什么做单边检验时,犯第一类错误的概率的评估会下调一半?答:选定显著性水平α之后,对应的临界值记为/2t α,则双边检验的拒绝区域为/2||t t α≥。
单边检验时,对参数的符号有先验估计,拒绝区域变为/2t t α≥或/2t t α≤-,故对犯第I 类错误的概率的评估下下降一半。
3.3 常常把高斯-马尔科夫定理简述为:OLS 估计量具有BULE 性质,其含义是什么? 答:含义是:(1)它是线性的(linear ):OLS 估计量是因变量的线性函数。
(2)它是无偏的(unbiased ):估计量的均值或数学期望等于真实的参数。
比如22ˆ()E ββ=。
(3)它是最优的或有效的(Best or efficient ):如果存在其它线性无偏的估计量,其方差必定大于OLS 估计量的方差。
3.4 做显著性检验时,针对的是总体回归函数(PRF )的系数还是样本回归函数(SRF )的系数?为什么?答:做显著性检验时,针对的是总体回归函数(SRF )的系数。
总体回归函数是未知的,也是研究者所关心的,所以只能利用样本回归函数来推测总体回归函数,后者是利用样本数据计算所得,是已知的,无需检验。
(习题)3.5 以下陈述正确吗?不论正确与否,请说明理由。
(1)X 值越接近样本均值,斜率的OLS 估计值就越精确。
答:错误。
因为2222ˆ1ˆ()2i i i u se n x x σβ=≈⋅-∑∑∑,当X 值越接近样本均值时i i x X X =-将会变小,则21x ni i =∑也将变小,这将会导致2ˆ()se β变大。
标准差的变大致使OLS 估计值波动更大,OLS 估计值也变得更不精确了。
(2)如果误差项u 与自变量X 相关,则估计量仍然是无偏的。
答:错误。
在证明估计量是无偏性的时候,我们假定自变量是给定的,否则222ˆ()()i i E k E u βββ=+=∑的第一个等式不成立。
(3)仅当误差项服从正态分布时,估计量才具有BLUE 性质。
答:错误,在证明高斯-马尔科夫定理时,无需假设误差项服从正态分布。
(4)如果误差项不服从正态分布,则不能进行t 检验和F 检验。
答:正确。
在证明相关统计量服从学生分布和F 分布时,需要假设误差项服从正态分布。
(5)如果误差项的方差较大,则置信区间较宽。
答:正确。
因为当误差项变大时,置信区间的表达式:22/2222/2ˆˆˆˆ()()se t se t ααβββββ-⋅≤≤+⋅中,可知区间长度更大,从而可知置信区间将会变宽。
(6)如果自变量方差较大,则系数的置信区间较窄。
答:正确。
因为自变量的方差较大,则系数估计量的方差较小。
以一元回归方程为例:2222ˆ1ˆ()2i i i u se n x x σβ=≈⋅-∑∑∑系数估计量的方差随自变量方差的增加而增加。
(7)p 值较大意味着系数为零的可能性小。
答:错误。
P 值就是当原假设为真时样本观察结果对应的统计值出现的概率,p 值较则拒绝原假设成立的可能性越大,也就是说系数为0的可能性也就越大。
(8)如果选择的显著性水平较高(p 值较小),则回归系数为显著的可能性较大。
答:正确。
当选择的显著性水平较高时,容许犯第I 类错误的概率上限将会下降,这使得我们断言“回归系数显著”的可能性也越小。
(9)如果误差项序列相关或为异方差,则估计系数不再是无偏或BLUE 。
答:错误。
当误差项序列相关或为异方差时,估计系数依然是无偏的,但是不再具有有效性,同时线性性也是满足的。
(10)p 值是零假设为真的概率。
答:错误。
P 值是当原假设为真时我们拒绝原假设的概率。
3.6 以下是商品价格P 和商品供给S 的数据: P 2751 4828S 15 41 32 9 28 43 17 40221025, 55.9, 255.4s p ps ===∑∑∑其中小写字母表示离差(观察值减去均值)。
(1)估计OLS 线性回归方程12()E S P ββ=+。
(2)估计12,ββ的标准差。
(3)检验假设:价格影响供给。
(4)求1β的置信度为95%的置信区间。
你对置信区间有何评论? 答:(1) 4.6258iP P ==∑ 28.1258iSS ==∑ 由系数估计公式:1221ˆni i i n ii x y x β===∑∑,12ˆˆY X ββ=-,可得 22255.4ˆ 4.5755.9ps p β===∑∑ 21ˆ28.125 4.57 4.625 6.99S P β==-⨯=可得估计的回归方程为:12() 6.99 4.57E S P P ββ=+=+(2)由于总体方差未知,则2212ˆˆ()2i i iX u se n n x β=⋅-∑∑∑=1.786 222ˆ1ˆ()=0.33522i i u se n x β=⋅-∑∑(3)假设:02H :0β=,则262ˆˆ()t se ββ,而对于当前样本,22ˆ13.63ˆ()se ββ≈利用Excel 计算可得:6Pr .(13.63)9.6845-06ob t E ≥=这说明,在一次抽样中,统计量绝对值大于等于13.63的概率非常非常小,几乎不会发生。
所以,我们拒绝原假设:02H :0β=,则说明价格影响供给。
(4)由置信区间公式:11/2111/2ˆˆˆˆ()()se t se t ααβββββ-⋅≤≤+⋅ 这里5%α=,对于本题,自由度为26n -=,则/2 2.447t α=.已知1ˆ 6.99β=,1ˆ() 1.786se β=,故 12.619711.3603β≤≤这也就是说[]2.6197,11.3603由95%的可能性包含1β。
【不能说:1β有95%的可能性落在区间[]2.6197,11.3603内】3.7 已知Y 和X 满足如下的总体回归模型:12Y X u ββ=++(1)根据Y 和X 的5对观测值计算出:2255, 15, 74, 10, 27X Y x y xy =====∑∑∑∑∑利用最小二乘法估计12,ββ。
答:1221ˆni i i n i i x y x β===∑∑=270.364974=12ˆˆY X ββ=-=30.364911 3.0139-⨯=- (2)经计算,该回归模型的残差平方和RSS 为1.4。
计算判定系数,并估计回归标准误σ。
答:21.4110.8610ESS RSS RTSS TSS ==-=-= 22222()74511679i i i X x X x nX =+=+=+⨯=∑∑∑2212ˆ679 1.4ˆ()0.92225743i i iX u se n n x β=⋅=⨯=-⨯∑∑∑222ˆ11.4ˆ()0.07942374i iu se n x β=⋅==-⨯∑∑3.8 假设某人利用容量为19的样本估计了消费函数i i i u Y C ++=βα,并获得下列结果:2ˆ150.81 (3.1)(18.7) R0.98i iC Y t =+==(1)计算参数估计量的标准差。
(2)构造β的95%的置信区间,据此检验β 的统计显著性。
答:(1)ˆ18.7ˆ()se ββ≈ 可得:0.81ˆ()0.043318.7se β== ˆ 3.1ˆ()se αα≈ 可得:15ˆ() 4.83873.1se α== (2)由置信区间公式:/2/2ˆˆˆˆ()()se t se t ααβββββ-⋅≤≤+⋅,可得: 0.71860.9014β≤≤,原点没有包含在置信区间内,故β是统计显著性的。
3.9 已经得到如下回归方程:2ˆ 0.20330.6560(0.0976) (0.1961)R 0.397 E S S =0.0544 R S S =0.0358Y X se =+==其中Y=1972年妇女的劳动参与率(LFPR ),X =1968年妇女的劳动参与率。
该回归结果来自于美国19个城市构成的数据样本。
(1)你如何解释该结果? (2)在对立假设为12H :1β>的前提下,检验02H :1β=的虚拟假设(零假设)。
你使用什么检验?为什么?(3)假设1968年的LFPR 为0.58(或58%),基于上述回归结果,1972年的LFPR 的均值的估计值是多少?构造其真实均值的95%的置信区间。
(4)如何检验总体回归误差项服从正态分布的虚拟假设?答:(1)由可决系数0.397可知,两个年度的劳动参与率有一定程度的相关性,但相关程度不是很高。
直观地说,劳动力参与率存在一定的惯性。
(2)使用t 检验。
假设:02H :1β=,则2172ˆ1ˆ()t se ββ-,而对于当前样本,22ˆ1 1.754ˆ()se ββ-≈- 利用单边检验,接受原假设。
使用单边检验是因为我们有先验判断:21β≥(3)ˆ()E Y的估计值 ˆ0.20330.65600.20330.65600.580.5738Y X =+=+⨯= 由总体方差未知,则/2/2ˆˆˆˆˆ()()()Y se Y t E Y Y se Y t αα-≤≤+, 0.05440.0358ˆ()0.00501191T S S s eY n +===--,可得:0.56330.5844Y ≤≤ 由此得到Y 的置信度为95%的置信区间为[0.5633,0.5844]。
(4)有三种方法可以检验总体回归误差项服从正态分布的虚拟假设:(1)残差直方图:用频率描述随机变量概率密度函数的图示法。
(2)正态分位图:把一组数据标准化之后与标准正态分布比较(3)雅克-贝拉检验。
如果残差服从正态分布,雅克和贝拉证明了JB 统计量服从自由度为2的2χ分布。
如果JB 统计量对应的p 值很小,就拒绝残差服从正态分布的零假设,否则就不能拒绝正态分布假设。
3.10 考虑双变量模型1212I :II :()i i ii i i Y X u Y X X u ββαα=++=+-+模型模型其中()/iX X n =∑,n 是样本容量。
(1)它们的OLS 估计量是否相同(1ˆβ与1ˆα,2ˆβ与2ˆα)? (2)OLS 估计量的方差是否相同?你认为那个模型更好?答:(1)2ˆβ与2ˆα相同,1ˆβ与1ˆα不相同。