第二章 一元线性回归模型(Stata)
- 格式:docx
- 大小:543.44 KB
- 文档页数:11
第2章一元线性回归模型§2.1 模型的建立及其假定条件1. 回归分析的概念回归分析是处理变量与变量之间关系的一种数学方法。
1)关系分类(1)确定的函数关系。
例如某企业的销售收入Y i等于产品价格P与销售量X i的乘积,用数学表达式表示为:Y i = P X i(2)非确定的依赖关系。
例如某企业资金的投人X i与产出Y i,一般来讲,资金投入越多,产出也相应提高。
但是由于生产过程中各种条件的变化,使得不同时间内同样的资金投入会有不同的产出。
这些造成了资金的投入与产出之间关系的不确定性,因而不能给出类似于函数的精确表达式。
用u i表示其他影响因素,将这两个变量之间非确定的依赖关系表示成下列形式:Y i = f(X i )+ u i(3)回归分析。
为了分析和利用变量之间非确定的依赖关系,人们建立了各种统计分析方法,其中回归分析方法是最常用的经典方法之一。
回归分析的理论和方法是计量经济模型估计理论和估计方法的主要内容。
2.一元线性回归模型1)概念。
为了说明一元线性回归模型,举一个某商品需求函数的例子。
为了研究某市城镇每年鲜蛋的需求量,首先考察消费者年人均可支配收入对年人均鲜蛋需求量的影响。
由经济理论知,当人均可支配收入提高时,鲜蛋需求量也相应增加。
但是,鲜蛋需求量除受消费者可支配收入影响外,还要受到其自身价格、人们的消费习惯及其他一些随机因素的影响。
为了表示鲜蛋需求量与消费者可支配收入之间非确定的依赖关系,设Y i为鲜蛋需求量,X i为可支配收入,我们将影响鲜蛋需求量的其他因素归并到随机变量吨中,建立这两个变量之间的数学模型:Y i = β0 + β1 X i + u i (2.1)其中Y i——称作被解释变量;X i——称作解释变量;u i——随机误差项(随机扰动项或随机项、误差项);β0 、β1——回归系数(待定系数或待定参数)。
在数学模型(2.1)式中,当X i发生变化时,按照一定规律影响另一变量Y i,而Y i的变化并不影响X i 。
第⼆章⼀元线性回归模型(Stata)1. 中国居民⼈均消费模型从总体上考察中国居民收⼊与消费⽀出的关系。
表2.1给出了1990年不变价格测算的中国⼈均国内⽣产总值(GDPP )与以居民消费价格指数(1990年为100)所见的⼈均居民消费⽀出(CONSP )两组数据。
表2.1 中国居民⼈均消费⽀出与⼈均GDP (单位:元/⼈)年份 CONSP GDPP 年份 CONSP GDPP 1978 395.8000 675.1000 1990 797.1000 1602.300 1979 437.0000 716.9000 1991 861.4000 1727.200 1980 464.1000 763.7000 1992 966.6000 1949.800 1981 501.9000 792.4000 1993 1048.600 2187.900 1982 533.5000 851.1000 1994 1108.700 2436.100 1983 572.8000 931.4000 1995 1213.100 2663.700 1984 635.6000 1059.200 1996 1322.800 2889.100 1985 716.0000 1185.200 1997 1380.900 3111.900 1986 746.5000 1269.600 1998 1460.600 3323.100 1987 788.3000 1393.600 1999 1564.400 3529.300 1988 836.4000 1527.000 20001690.8003789.7001989779.70001565.9001) 建⽴模型,并分析结果。
2)输出结果为:对应的模型表达式为:201.1070.3862CONSP GDPP =+(13.51) (53.47) 20.9927,2859.23,0.55R F DW ===从回归估计的结果可以看出,拟合度较好,截距项和斜率项系数均通过了t 检验。
第二章一元线性回归模型一、知识点列表二、关键词1、回归分析基本概念关键词:回归分析在计量经济学中,回归分析方法是研究某一变量关于另一(些)变量间数量依赖关系的一种方法,即通过后者观测值或预设值来估计或预测前者的(总体)均值。
回归的主要作用是用来描述自变量与因变量之间的数量关系,还能够基于自变量的取值变化对因变量的取值变化进行预测,也能够用来揭示自变量与因变量之间的因果关系关键词:解释变量、被解释变量影响被解释变量的因素或因子记为解释变量,结果变量被称为被解释变量。
2、回归模型的设定关键词:随机误差项(随机干扰项)不包含在模型中的解释变量和其他一些随机因素对被解释变量的总影响称为随机误差项。
产生随机误差项的原因主要有:(1)变量选择上的误差;(2)模型设定上的误差;(3)样本数据误差;(4)其他原因造成的误差。
关键词:残差项(residual )通过样本数据对回归模型中参数估计后,得到样本回归模型。
通过样本回归模型计算得到的样本估计值与样本实际值之差,称为残差项。
也可以认为残差项是随机误差项的估计值。
3、一元线性回归模型中对随机干扰项的假设 关键词:线性回归模型经典假设线性回归模型经典假设有5个,分别为:(1)回归模型的正确设立;(2)解释变量是确定性变量,并能够从样本中重复抽样取得;(3)解释变量的抽取随着样本容量的无限增加,其样本方差趋于非零有限常数;(4)给定被解释变量,随机误差项具有零均值,同方差和无序列相关性。
(5)随机误差项服从零均值、同方差的正态分布。
前四个假设也称为高斯马尔科夫假设。
4、最小二乘估计量的统计性质关键词:普通最小二乘法(Ordinary Least Squares ,OLS )普通最小二乘法是通过构造合适的样本回归函数,从而使得样本回归线上的点与真实的样本观测值点的“总体误差”最小,即:被解释变量的估计值与实际观测值之差的平方和最小。
ββ==---∑∑∑nn n222i i 01ii=111ˆˆmin =min ()=min ()i i i i u y y y x关键词:无偏性由于未知参数的估计量是一个随机变量,对于不同的样本有不同的估计量。
1. 中国居民人均消费模型从总体上考察中国居民收入与消费支出的关系。
表2.1给出了1990年不变价格测算的中国人均国内生产总值(GDPP )与以居民消费价格指数(1990年为100)所见的人均居民消费支出(CONSP )两组数据。
表2.1 中国居民人均消费支出与人均GDP (单位:元/人)年份 CONSP GDPP 年份 CONSP GDPP 1978 395.8000 675.1000 1990 797.1000 1602.300 1979 437.0000 716.9000 1991 861.4000 1727.200 1980 464.1000 763.7000 1992 966.6000 1949.800 1981 501.9000 792.4000 1993 1048.600 2187.900 1982 533.5000 851.1000 1994 1108.700 2436.100 1983 572.8000 931.4000 1995 1213.100 2663.700 1984 635.6000 1059.200 1996 1322.800 2889.100 1985 716.0000 1185.200 1997 1380.900 3111.900 1986 746.5000 1269.600 1998 1460.600 3323.100 1987 788.3000 1393.600 1999 1564.400 3529.300 1988 836.4000 1527.000 20001690.8003789.7001989779.70001565.9001) 建立模型,并分析结果。
2)输出结果为:对应的模型表达式为:201.1070.3862CONSP GDPP =+(13.51) (53.47) 20.9927,2859.23,0.55R F DW ===从回归估计的结果可以看出,拟合度较好,截距项和斜率项系数均通过了t 检验。
中国人均消费增加10000元,GDP增加3862元。
2.线性回归模型估计表2.2给出黑龙江省伊春林区1999年16个林业局的年木材采伐量和相应伐木剩余物数据。
利用该数据(1)画散点图;(2)进行OLS回归;(3)预测。
表2.2 年剩余物y t和年木材采伐量x t数据林业局名年木材剩余物y t(万m3)年木材采伐量x t(万m3)乌伊岭26.1361.4东风23.4948.3新青21.9751.8红星11.5335.9五营7.1817.8上甘岭 6.8017.0友好18.4355.0翠峦11.6932.7乌马河 6.8017.0美溪9.6927.3大丰7.9921.5南岔12.1535.5带岭 6.8017.0朗乡17.2050.0桃山9.5030.0双丰 5.5213.8合计202.87532.00(1)画散点图得散点图(2)OLS 估计得到输出结果如图由输出结果可以看出,对应的回归表达式为:ˆ0.76290.4043t t yx =-+ (-0.625) (12.11)20.9129,146.7166, 1.48R F DW ===(3)x=20条件下模型的样本外预测方法首先修改工作文件范围(不会)3.表2.3列出了中国1978—2000年的参政收入Y和国内生产总值GDP的统计资料。
做出散点图,建立财政收入随国内生产总值变化的一元线性回归方程。
表2.3年份财政收入Y GDP 年份财政收入Y GDP1978 1132.260 3624.100 1990 2937.100 18547.90 1979 1146.380 4038.200 1991 3149.480 21617.80 1980 1159.930 4517.800 1992 3483.370 26638.10 1981 1175.790 4862.400 1993 4348.950 34634.40 1982 1212.330 5294.700 1994 5218.100 46759.40 1983 1366.950 5934.500 1995 6242.200 58478.10 1984 1642.860 7171.000 1996 7407.990 67884.60 1985 2004.820 8964.400 1997 8651.140 74462.60 1986 2122.010 10202.20 1998 9875.950 78345.20 1987 2199.350 11962.50 1999 11444.08 82067.50 1988 2357.240 14928.30 2000 13395.23 89403.60 1989 2664.900 16909.201) 做散点图:得到散点图如下:2) 进行回归分析:输出结果如下:对应的表达式是:556.60.12Y GDP =+(2.52) (22.72) 20.96,516.3R F ==从上面的结果可以看出,模型的你拟合度较高,各个系数均通过了t 检验。
财政收入增加10000元,GDP 增加1200元。
4. 表2.4给出了某国1990—1996年间的CPI 指数与S&P500指数。
(1)以CPI 指数为横轴,S&P500指数为纵轴作图;(2)做回归模型,并解释结果。
表2.4年份 CPI 指数 S&P500指数 年份 CPI 指数 S&P500指数 1990 130.7000 334.5900 1994 148.2000 460.3300 1991 136.2000 376.1800 1995 152.4000 541.6400 1992 140.3000 415.7400 1996 159.6000 670.83001993 144.5000 451.41001) 作散点图:得散点图如下:2)做回归估计:得到如下结果:对应的回归表达式为:&1137.8311.08S P CPI =-+(-6.39) (9.02)回归结果显示,CPI 指数与S&P 指数正相关,斜率表示当CPI 指数变化1个点,会使S&P 指数变化11.08个点;截距表示当CPI 指数为0是,S&P 指数为-1137.83,此数据没有明显的经济意义。
5.表2.5给出了美国30所知名学校的MBA学生1994年基本年薪(ASP),GPA分数(从1—4共四个等级),GMAT分数,以及每年学费(X)的数据。
(1)用双变量回归模型分析GPA分数是否对ASP有影响?(2)用合适的回归模型分析GMAT分数是否与ASP有关?(3)每年的学费与ASP有关吗?如果两变量之间正相关,是否意味着进到最高费用的商业学校是有利的?(4)高学费的商业学校意味着高质量的MBA成绩吗?为什么?表2.5学校ASP/美元GPA分数GMAT分数X/美元Harvard 102630.0 3.400000 650.0000 23894.00Stanford 100800.0 3.300000 665.0000 21189.00Columbian 100480.0 3.300000 640.0000 21400.00Dartmouth 95410.00 3.400000 660.0000 21225.00Wharton 89930.00 3.400000 650.0000 21050.00 Northwestern 84640.00 3.300000 640.0000 20634.00 Chicago 83210.00 3.300000 650.0000 21656.00MIT 80500.00 3.500000 650.0000 21690.00Virginia 74280.00 3.200000 643.0000 17839.00UCLA 74010.00 3.500000 640.0000 14496.00Berkeley 71970.00 3.200000 647.0000 14361.00Cornell 71970.00 3.200000 630.0000 20400.00NUY 70660.00 3.200000 630.0000 20276.00Duke 70490.00 3.300000 623.0000 21910.00CarnegieMellon 59890.00 3.200000 635.0000 20600.00 North Carolina 69880.00 3.200000 621.0000 10132.00 Michigan 67820.00 3.200000 630.0000 20960.00Texas 61890.00 3.300000 625.0000 8580.000Indiana 58520.00 3.200000 615.0000 14036.00Purdue 54720.00 3.200000 581.0000 9556.000 Case Western 57200.00 3.100000 591.0000 17600.00Georgetown 69830.00 3.200000 619.0000 19584.00Michigan State 41820.00 3.200000 590.0000 16057.00Penn State 49120.00 3.200000 580.0000 11400.00SouthernMethodist 60910.00 3.100000 600.0000 18034.00Tulane 44080.00 3.100000 600.0000 19550.00Illinois 47130.00 3.200000 616.0000 12628.00Lowa 41620.00 3.200000 590.0000 9361.000 Minnesota 48250.00 3.200000 600.0000 12618.00Washington 44140.00 3.300000 617.0000 11436.00(1)以ASP为因变量,GPA为自变量进行回归分析。
结果如下:从回归结果可以看出,GPA分数的系数是显著的,对ASP有正的影响。
(与Eviews系数结果不一致,仔细核实一下)(2)以ASP为因变量,GMAT为自变量做回归分析。
结果如下:从回归结果可以看出,GMAT分数与ASP是显著正相关的。
(与Eviews系数结果不一致,仔细核实一下)(3)以ASP为因变量,X为自变量进行回归分析。
结果如下:从回归结果可以看出,每年的学费与ASP显著正相关。