第二章一元线性回归模型(Stata)
- 格式:doc
- 大小:555.43 KB
- 文档页数:11
第⼆章⼀元线性回归模型(Stata)1. 中国居民⼈均消费模型从总体上考察中国居民收⼊与消费⽀出的关系。
表2.1给出了1990年不变价格测算的中国⼈均国内⽣产总值(GDPP )与以居民消费价格指数(1990年为100)所见的⼈均居民消费⽀出(CONSP )两组数据。
表2.1 中国居民⼈均消费⽀出与⼈均GDP (单位:元/⼈)年份 CONSP GDPP 年份 CONSP GDPP 1978 395.8000 675.1000 1990 797.1000 1602.300 1979 437.0000 716.9000 1991 861.4000 1727.200 1980 464.1000 763.7000 1992 966.6000 1949.800 1981 501.9000 792.4000 1993 1048.600 2187.900 1982 533.5000 851.1000 1994 1108.700 2436.100 1983 572.8000 931.4000 1995 1213.100 2663.700 1984 635.6000 1059.200 1996 1322.800 2889.100 1985 716.0000 1185.200 1997 1380.900 3111.900 1986 746.5000 1269.600 1998 1460.600 3323.100 1987 788.3000 1393.600 1999 1564.400 3529.300 1988 836.4000 1527.000 20001690.8003789.7001989779.70001565.9001) 建⽴模型,并分析结果。
2)输出结果为:对应的模型表达式为:201.1070.3862CONSP GDPP =+(13.51) (53.47) 20.9927,2859.23,0.55R F DW ===从回归估计的结果可以看出,拟合度较好,截距项和斜率项系数均通过了t 检验。
第二章 一元线性回归模型2.1 一元线性回归模型的基本假定2.1.1一元线性回归模型有一元线性回归模型(统计模型)如下, y t = β0 + β1 x t + u t上式表示变量y t 和x t 之间的真实关系。
其中y t 称被解释变量(因变量),x t 称解释变量(自变量),u t 称随机误差项,β0称常数项,β1称回归系数(通常未知)。
上模型可以分为两部分。
(1)回归函数部分,E(y t ) = β0 + β1 x t ,(2)随机部分,u t 。
图2.1 真实的回归直线这种模型可以赋予各种实际意义,居民收入与支出的关系;商品价格与供给量的关系;企业产量与库存的关系;身高与体重的关系等。
以收入与支出的关系为例。
假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。
但实际上数据来自各个家庭,来自同一收入水平的家庭,受其他条件的影响,如家庭子女的多少、消费习惯等等,其出也不尽相同。
所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。
“线性”一词在这里有两重含义。
它一方面指被解释变量Y 与解释变量X 之间为线性关系,即1tty x β∂=∂220tt y x β∂=∂另一方面也指被解释变量与参数0β、1β之间的线性关系,即。
1ty x β∂=∂,221ty β∂=∂0 ,1ty β∂=∂,2200ty β∂=∂2.1.2 随机误差项的性质随机误差项u t 中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。
所以在经济问题上“控制其他因素不变”是不可能的。
随机误差项u t 正是计量模型与其它模型的区别所在,也是其优势所在,今后咱们的很多内容,都是围绕随机误差项u t 进行了。
回归模型的随机误差项中一般包括如下几项内容: (1)非重要解释变量的省略, (2)数学模型形式欠妥, (3)测量误差等,(4)随机误差(自然灾害、经济危机、人的偶然行为等)。
第二章一元线性回归模型一、知识点列表二、关键词1、回归分析基本概念关键词:回归分析在计量经济学中,回归分析方法是研究某一变量关于另一(些)变量间数量依赖关系的一种方法,即通过后者观测值或预设值来估计或预测前者的(总体)均值。
回归的主要作用是用来描述自变量与因变量之间的数量关系,还能够基于自变量的取值变化对因变量的取值变化进行预测,也能够用来揭示自变量与因变量之间的因果关系关键词:解释变量、被解释变量影响被解释变量的因素或因子记为解释变量,结果变量被称为被解释变量。
2、回归模型的设定关键词:随机误差项(随机干扰项)不包含在模型中的解释变量和其他一些随机因素对被解释变量的总影响称为随机误差项。
产生随机误差项的原因主要有:(1)变量选择上的误差;(2)模型设定上的误差;(3)样本数据误差;(4)其他原因造成的误差。
关键词:残差项(residual )通过样本数据对回归模型中参数估计后,得到样本回归模型。
通过样本回归模型计算得到的样本估计值与样本实际值之差,称为残差项。
也可以认为残差项是随机误差项的估计值。
3、一元线性回归模型中对随机干扰项的假设 关键词:线性回归模型经典假设线性回归模型经典假设有5个,分别为:(1)回归模型的正确设立;(2)解释变量是确定性变量,并能够从样本中重复抽样取得;(3)解释变量的抽取随着样本容量的无限增加,其样本方差趋于非零有限常数;(4)给定被解释变量,随机误差项具有零均值,同方差和无序列相关性。
(5)随机误差项服从零均值、同方差的正态分布。
前四个假设也称为高斯马尔科夫假设。
4、最小二乘估计量的统计性质关键词:普通最小二乘法(Ordinary Least Squares ,OLS )普通最小二乘法是通过构造合适的样本回归函数,从而使得样本回归线上的点与真实的样本观测值点的“总体误差”最小,即:被解释变量的估计值与实际观测值之差的平方和最小。
ββ==---∑∑∑nn n222i i 01ii=111ˆˆmin =min ()=min ()i i i i u y y y x关键词:无偏性由于未知参数的估计量是一个随机变量,对于不同的样本有不同的估计量。
1. 中国居民人均消费模型从总体上考察中国居民收入与消费支出的关系。
表2.1给出了1990年不变价格测算的中国人均国内生产总值(GDPP )与以居民消费价格指数(1990年为100)所见的人均居民消费支出(CONSP )两组数据。
表2.1 中国居民人均消费支出与人均GDP (单位:元/人)年份 CONSP GDPP 年份 CONSP GDPP 1978 395.8000 675.1000 1990 797.1000 1602.300 1979 437.0000 716.9000 1991 861.4000 1727.200 1980 464.1000 763.7000 1992 966.6000 1949.800 1981 501.9000 792.4000 1993 1048.600 2187.900 1982 533.5000 851.1000 1994 1108.700 2436.100 1983 572.8000 931.4000 1995 1213.100 2663.700 1984 635.6000 1059.200 1996 1322.800 2889.100 1985 716.0000 1185.200 1997 1380.900 3111.900 1986 746.5000 1269.600 1998 1460.600 3323.100 1987 788.3000 1393.600 1999 1564.400 3529.300 1988 836.4000 1527.000 20001690.8003789.7001989779.70001565.9001) 建立模型,并分析结果。
2)输出结果为:对应的模型表达式为:201.1070.3862CONSP GDPP =+(13.51) (53.47) 20.9927,2859.23,0.55R F DW ===从回归估计的结果可以看出,拟合度较好,截距项和斜率项系数均通过了t 检验。
中国人均消费增加10000元,GDP增加3862元。
2.线性回归模型估计表2.2给出黑龙江省伊春林区1999年16个林业局的年木材采伐量和相应伐木剩余物数据。
利用该数据(1)画散点图;(2)进行OLS回归;(3)预测。
表2.2 年剩余物y t和年木材采伐量x t数据林业局名年木材剩余物y t(万m3)年木材采伐量x t(万m3)乌伊岭26.13 61.4东风23.49 48.3新青21.97 51.8红星11.53 35.9五营7.18 17.8上甘岭 6.80 17.0友好18.43 55.0翠峦11.69 32.7乌马河 6.80 17.0美溪9.69 27.3大丰7.99 21.5南岔12.15 35.5带岭 6.80 17.0朗乡17.20 50.0桃山9.50 30.0双丰 5.52 13.8合计202.87 532.00(1)画散点图得散点图(2)OLS估计得到输出结果如图由输出结果可以看出,对应的回归表达式为:ˆ0.76290.4043t t yx =-+ (-0.625) (12.11)20.9129,146.7166, 1.48R F DW ===(3)x=20条件下模型的样本外预测方法首先修改工作文件范围(不会)3. 表2.3列出了中国1978—2000年的参政收入Y 和国内生产总值GDP 的统计资料。
做出散点图,建立财政收入随国内生产总值变化的一元线性回归方程。
表2.3年份财政收入Y GDP 年份财政收入Y GDP 1978 1132.260 3624.100 1990 2937.100 18547.90 1979 1146.380 4038.200 1991 3149.480 21617.80 1980 1159.930 4517.800 1992 3483.370 26638.10 1981 1175.790 4862.400 1993 4348.950 34634.40 1982 1212.330 5294.700 1994 5218.100 46759.40 1983 1366.950 5934.500 1995 6242.200 58478.10 1984 1642.860 7171.000 1996 7407.990 67884.60 1985 2004.820 8964.400 1997 8651.140 74462.60 1986 2122.010 10202.20 1998 9875.950 78345.20 1987 2199.350 11962.50 1999 11444.08 82067.50 1988 2357.240 14928.30 2000 13395.23 89403.60 1989 2664.900 16909.201) 做散点图:得到散点图如下:2) 进行回归分析:输出结果如下:对应的表达式是:556.60.12Y GDP =+(2.52) (22.72) 20.96,516.3R F ==从上面的结果可以看出,模型的你拟合度较高,各个系数均通过了t 检验。
财政收入增加10000元,GDP 增加1200元。
4. 表2.4给出了某国1990—1996年间的CPI 指数与S&P500指数。
(1)以CPI 指数为横轴,S&P500指数为纵轴作图;(2)做回归模型,并解释结果。
表2.4年份 CPI 指数 S&P500指数 年份 CPI 指数 S&P500指数 1990 130.7000 334.5900 1994 148.2000 460.3300 1991 136.2000 376.1800 1995 152.4000 541.6400 1992 140.3000 415.7400 1996 159.6000 670.83001993 144.5000 451.41001) 作散点图:得散点图如下:2)做回归估计:得到如下结果:对应的回归表达式为:&1137.8311.08S P CPI =-+(-6.39) (9.02)回归结果显示,CPI 指数与S&P 指数正相关,斜率表示当CPI 指数变化1个点,会使S&P 指数变化11.08个点;截距表示当CPI 指数为0是,S&P 指数为-1137.83,此数据没有明显的经济意义。
5.表2.5给出了美国30所知名学校的MBA学生1994年基本年薪(ASP),GPA分数(从1—4共四个等级),GMAT分数,以及每年学费(X)的数据。
(1)用双变量回归模型分析GPA分数是否对ASP有影响?(2)用合适的回归模型分析GMAT分数是否与ASP有关?(3)每年的学费与ASP有关吗?如果两变量之间正相关,是否意味着进到最高费用的商业学校是有利的?(4)高学费的商业学校意味着高质量的MBA成绩吗?为什么?表2.5学校ASP/美元GPA分数GMAT分数X/美元Harvard 102630.0 3.400000 650.0000 23894.00Stanford 100800.0 3.300000 665.0000 21189.00Columbian 100480.0 3.300000 640.0000 21400.00Dartmouth 95410.00 3.400000 660.0000 21225.00Wharton 89930.00 3.400000 650.0000 21050.00 Northwestern 84640.00 3.300000 640.0000 20634.00 Chicago 83210.00 3.300000 650.0000 21656.00MIT 80500.00 3.500000 650.0000 21690.00Virginia 74280.00 3.200000 643.0000 17839.00UCLA 74010.00 3.500000 640.0000 14496.00Berkeley 71970.00 3.200000 647.0000 14361.00Cornell 71970.00 3.200000 630.0000 20400.00NUY 70660.00 3.200000 630.0000 20276.00Duke 70490.00 3.300000 623.0000 21910.00CarnegieMellon 59890.00 3.200000 635.0000 20600.00 North Carolina 69880.00 3.200000 621.0000 10132.00 Michigan 67820.00 3.200000 630.0000 20960.00Texas 61890.00 3.300000 625.0000 8580.000Indiana 58520.00 3.200000 615.0000 14036.00Purdue 54720.00 3.200000 581.0000 9556.000 Case Western 57200.00 3.100000 591.0000 17600.00Georgetown 69830.00 3.200000 619.0000 19584.00Michigan State 41820.00 3.200000 590.0000 16057.00Penn State 49120.00 3.200000 580.0000 11400.00SouthernMethodist 60910.00 3.100000 600.0000 18034.00Tulane 44080.00 3.100000 600.0000 19550.00Illinois 47130.00 3.200000 616.0000 12628.00Lowa 41620.00 3.200000 590.0000 9361.000 Minnesota 48250.00 3.200000 600.0000 12618.00Washington 44140.00 3.300000 617.0000 11436.00(1)以ASP为因变量,GPA为自变量进行回归分析。
结果如下:从回归结果可以看出,GPA分数的系数是显著的,对ASP有正的影响。
(与Eviews系数结果不一致,仔细核实一下)(2)以ASP为因变量,GMAT为自变量做回归分析。
结果如下:从回归结果可以看出,GMAT分数与ASP是显著正相关的。
(与Eviews系数结果不一致,仔细核实一下)(3)以ASP为因变量,X为自变量进行回归分析。