当前位置:文档之家› 计量经济学一元线性回归模型总结

计量经济学一元线性回归模型总结

计量经济学一元线性回归模型总结
计量经济学一元线性回归模型总结

第一节 两变量线性回归模型

一.模型的建立

1.数理模型的基本形式

y x αβ=+ (2.1)

这里y 称为被解释变量(dependent variable),x 称为解释变量(independent variable)

注意:(1)x 、y 选择的方法:主要是从所研究的问题的经济关系出发,根据已有的经济理论进行合理选择。

(2)变量之间是否是线性关系可先通过散点图来观察。

2.例

如果在研究上海消费规律时,已经得到上海城市居民1981-1998年期间的人均可支配收入和人均消费性支出数据(见表1),能否用两变量线性函数进行分析?

表1.上海居民收入消费情况

年份 可支配收入 消费性支出 年份 可支配收入 消费性支出 1981 636.82 585 1990 2181.65 1936 1982 659.25 576 1991 2485.46 2167 1983 685.92 615 1992 3008.97 2509 1984 834.15 726 1993 4277.38 3530 1985 1075.26 992 1994 5868.48 4669 1986

1293.24

1170

1995

7171.91

5868

19871437.09128219968158.746763 19881723.44164819978438.896820 19891975.64181219988773.16866

2.一些非线性模型向线性模型的转化

一些双变量之间虽然不存在线性关系,但通过变量代换可化为线性形式,这些双变量关系包括对数关系、双曲线关系等。

例3-2 如果认为一个国家或地区总产出具有规模报酬不变的特征,那么采用人均产出y与人均资本k的形式,该国家或者说地区的总产出规律可以表示为下列C-D生产函数形式

y Akα

=

(2.2)

也就是人均产出是人均资本的函数。能不能用两变量线性回归模型分析这种总量生产规律?

3.计量模型的设定 (1)基本形式:

y x αβε=++ (2.3) 这里ε是一个随机变量,它的数学期望为0,即

(2.3)中的变量y 、x 之间的关系已经是不确定的了。之所以写成不确定关系的原因在于现实经济当中影响变量y 的因素除x 外还有许多(但均不是主要因素),这许多的因素就用ε来表示。

(注意数学期望的解释) 二.模型的假设

1.对模型提出一些假设(限制)的原因

保证模型设定具有较高的合理性,从而可用其进行经济分析并有利于统计分析的进行。 2.基本假定

(1) 在x 给定的条件下,ε的数学期望为0; (2) x 与ε不相关;

(3) ε的方差是一个常数; (4) ε之间不存在序列相关; (5)

2(0,)N εσ 。

注意:第一,所有假定实际均是针对ε的;第二,假定(5)可由假定(4)得出,故不是一个独立的假定。

(解释数学期望、密度函数、方差、相关性和中心极限定理)

第二 两变量回归模型的参数估计

一.研究目的与方法 1.研究目的

如何利用样本数据估计已经设定的两变量模型中的参数。 2.估计方法

主要有最小二乘估计、矩估计和极大似然估计。 二.具体方法过程 (一).最小二乘法 1.问题提出

假设有如下的一组观测所得样本点及大致的回归直线,问如何才能得到最佳的回归直线参数估计值?

2.问题解决标准

关键是提出一个如何是最佳的标准。直观上来看,我们可以选择这样的回归直线:使所有样本观测点与回归直线的偏离程度最小。于是问题转化为偏离程度如何度量度量的问题,那么这种偏离程度如何计量呢?

3.估计的步骤

要求:2

1min

()n

i i i D y x αβ==--∑ (3.2.1) 方法:利用微积分中的导数求极值的方法,具体步骤为:

由于(3.2.1)中的未知变量是a 、b ,因此由极值条件可得:

0D α?=?和0D

β

?=? 由上两式可得一联立方程组,解之可得:

2

()(),()i

i i

y y x x y x x x βαβ--==--∑∑

例3—3获得消费函数的参数估计。

例3-1中消费函数模型的参数估计(上机)。 (二)最大似然估计

1.最大似然估计的基本原理

为了获得一个随机变量x 的统计规律,进行了一组试验,试验得到了一组观测结果:x 1,x 2,x 3…,极大似然估计的基本思想是:既然在一次观测中出现了这一组观测值,这不应是偶然的,所以这一组观测值出现的概率应是最大的。即如果设x 的概率密度函数为f(x),则这一组概率f(x 1) f(x 2) f(x 3) …应当最大。

2.最大似然估计在两变量模型参数估计中的作用

(1)前提条件:必须知道随机扰动项ε的分布,根据古典最小二乘法的假设,ε服从正态分布。 (2)计算过程

由于ε

的密度函数为22()2f εεσ??

=-????

,故一组ε序列123,,εεε 的似然函数为:

(

)2222

1222222222

2

2

21

1,,22211

(2)exp (2)exp ()22n n n n

n

i i i i i L y x εεεαβσσσσπσεπσαβσ

σ-

-

==??

??=---?????

?????

?=-=-

--??????

??

∑∑

由复合函数的最大化条件可得:

图3.2 一组样本点及回归直线图 Y=a+bx y

x *

* *

* *

20,0,0L L L αβσ

???===??? (3.2.2) 解(3.2.2)可得:

2

222

11

()()11,,()()i n n i

i i i i i i

y y x x y x y x e n n x x βαβσ

αβ==--==-=--=-∑∑∑∑

注意:对于,αβ,最大似然估计法与最小二乘法所得结果一致,但最大似然估计还给出了2

σ的估计。 (三)矩估计

在概率论中有一个特殊的概念:矩。矩(严格说这里仅指原点矩)通俗的说就是一个随机变量的任意次方的平均值(数学期望),例如随机变量ε的各阶矩:23,,E E E εεε 等。

之所以提出矩的概念,是因为这有点类似于微积分中的泰勒展开式,在泰勒展开式中,任何一个多阶可微的函数均可利用一个多项式来近似,而对于随机变量的任意阶的平均值(数学期望)而言,他们同样也可通过一个由各阶矩构成的多项式来表示。例如:随机变量x 的方差2

()E x Ex -即可由Ex 和Ex 2所组成的多项式描述。

矩估计的基本思想是:母体矩=样本矩。所谓母体矩,指的是由母体所计算的平均值(数学期望),所谓样本矩是指利用观测到的值所计算的平均值。例如:随机变量x 的母体一阶矩(数学期望)是E(x),而

若现在有一组观测值x 1,x 2,…x n ,则由母体矩=样本矩的原理可得:1

1n

i i Ex x n ==∑。

第三节 最小二乘估计量的性质

一.问题提出

前面两变量回归模型中参数,αβ的估计量分别是:2

()(),()

i

i i

y y x x y x x x βαβ--=

=--∑∑

,对其观察可以知道,在x i 是常数的假设下,这两个估计量均是y i 的函数,也就是说,它们仍是一个随机变量,但是实际的,αβ值应当是一个固定的常数,而非一个随机变量,那么现在我们就面临这样一个问题:如何评价两

个随机变量,αβ

对两个非随机变量,αβ的近似程度?

一般来说,我们可以通过如下方式考察:既然,αβ

是一个随机变量,直观上我们可以看出,如果在多次重复观测过程中(观测次数太少说明不了问题,因为这些结果可能是偶然现象),,αβ

会越来越接近

,αβ,那么应当说,αβ

就越是一个好的估计量。评价这种“越来越近”的方法有三种:无偏性、一致性

与最小方差性。

二.无偏性、一致性和最小方差性的解释 1.无偏性

无偏性指的是,在大量观测之后,如果对所有的观测值加总后取平均数,那么这个平均数将等于(或

近似等于)真实参数的值。例如:对于随机变量β

来说,如果我们对其进行重复观测后得到一组样本值

12,ββ ,如果取平均后1

1n i i n ββ=≈∑

,则表明随机变量β 是真实值β的一个无偏估计。

2.一致性

一致性指的是这样一种“越来越近”的情形:在对随机变量β

进行大量重复观测后,如果在观测次数足够大以后,观测值偏离真实值β的次数已经非常少了,即绝大部分观测值都非常接近于β了,那么这就

表明随机变量β

是真实值β的一个一致估计了。

3.有效性

在说明有效性以前应说明最小方差的概念,最小方差性指的是,在所有用于近似表示真实值β的所有

估计中,如果在多次观测后发现,12,ββ 偏离β的总和2

()i ββ-∑最小,则表明β 是β的一个最小方

差估计。

有效性则指的是β

不仅是β的无偏估计,而且还是β的最小方差估计。

三.最小二乘估计量的精确度问题

高斯—马尔科夫定理:最小二乘估计量,αβ

是真实值,αβ的一致最小线性无偏估计(blue ,best linear unbiasedness property )。这里“线性”指的是它是随机观测值y 1,y 2,y 3…的线性函数。

第四节 回归拟合度评价和决定系数

1.前提假设:

假设我们要估计的两变量回归模型为:i i i Y X αβε=++,且利用样本观测值所得到的估计结果为:i i Y X αβ=+

?2。问题提出

?在回归分析当中,很自然的,我们总希望有更多的样本观测点落在回归直线上,这可以看作是判断我们的回归直线“好坏”的一个总的指标,那么我们如何来寻找这样一个用来描述“样本观测点落在回归直线上的比重”的指标呢?直观上来看,好像我们已经解决了这个问题:因为我们的最小二乘法已经保证了使样本观测值尽可能小的偏离回归直线。但是仔细分析后可以发现,残差平方和

2

2()i

i i e

Y X αβ=--∑∑严重依赖于X i 、

Y i 的度量单位,因此我们不能用此指标做为衡量标准。为了消除度量单位的影响,我们最好寻求一个比例指标。这个指标就是拟合优度。 2.拟合优度(拟合度)

①R 2指标是判断回归模型优劣的一个最基本的指标,但比较笼统,不精细。

②在Eviews 中就是回归结果中的第一个R 2,判断时要注意,其越接近1,说明模型总体拟合效果越好。 ③R 2的正式名称是“决定系数”。

* 2β

12

,ββ 均是β的无偏估计,其 抽样分布的比较。

具体的证明过程:

2

2

22()()()()2()()

i i i i i i i i i i Y Y Y Y Y Y Y Y Y Y Y Y Y Y -=-+-=-+-+--∑∑∑∑∑

由于i i i e Y Y =-

为此,首先要证明的是0i

e =∑与0i i

X e =∑,由最小二乘法的计算过程可知,我们要估计参数,就要使下式最小

化:

22

2min ()()i i i i i Y X Y Y e αβ--=-=∑∑∑

,为了使其最小化对其关于α

求偏导可得:

(*)

20i e α

?=-=?∑∑ ,即0i e =∑。同理,对β 求偏导并令其为0,可得0i i X e =∑。在这些条件下,有: Dependent Variable: C1 Method: Least Squares Date: 09/26/04 Time: 06:59 Sample(adjusted): 1982 1999

Variable Coefficient Std. Error t-Statistic Prob. C 5788.553 1446.866 4.000753 0.0010 R-squared

0.681221 Mean dependent var 12372.40 Adjusted R-squared 0.661297 S.D. dependent var 6624.073 S.E. of regression

3855.090 Akaike info criterion

19.45662

Y Y i Y i 的离差分解

Sum squared resid 2.38E+08 Schwarz criterion 19.55555 Log likelihood -173.1095 F-statistic 34.19151 Durbin-Watson stat

0.270758 Prob(F-statistic)

0.000025

下一节上机课内容:估计例3-1中的参数并说明决定系数的含义。

第五节 统计推断

一.为什么要学统计推断呢?

首先,之所以存在“统计推断”的问题,是因为对于随机现象来说,我们利用一组观测值所得出的估计结果可能具有偶然性,因此我们还要通过做更多次的重复试验(即通过取多组观测值)来对所得结果是否是偶然的进行验证。显然,对于“好的”一次观测值所得的估计结果,我们总希望它们具有如下两条性质:一是通过多次的重复观测,我们发现我们估计出的参数值确实“很接近”真实的参数值;二是多次重复观测后发现,我们所估计出的参数值在大多数情况下均落入真实值周围的某个很小的范围内。前一个问题就是“假设检验”的问题,后一个问题是“置信区间”的问题。

二.假设检验基本理论 1.假设检验:

所谓假设检验,从字面上理解,实际上就是“我们先提出一个假设,然后再利用样本观测值对这个假设进行检验”,实际情形也的确如此。例如,通常的情形是这样的,如果我们利用样本观测值得出消费函数C a bY ε=++的估计结果为:C=80+0.23Y ,那么出于对一次观测偶然性的担忧,我们对边际消费倾向的估计值0.23不太放心,我们担心可能实际上收入Y 与消费C 之间并无相关关系,因此我们猜测边际消费倾向的实际值会不会是0呢?解决这个问题就可以通过假设检验来完成。解决的办法是:第一,我们先给定一个原假设,这个原假设是H 0:b=0;第二,我们再去收集很多组观测值,看这些观测值是否支持原假设,如果支持,说明我们的参数估计出现了问题,如果不支持,说明我们的参数估计在统计意义上是没有问题的。那么如何判断这些观测值是否支持原假设呢?

2.判断重复观测值是否支持原假设的方法:

直观上,我们可以这样来判断:先将所有的可能观测结果分为两组,第一组是支持原假设的,第二组则是不支持原假设的。显然,如果在我们的观测值中大多数都落入了第一组当中,那么我们应当支持原假设的正确性,如果大多数都落入了第二组,我们就应当否定原假设的正确性。那么现在又出现了两个问题:如何确定这个“大多数”的标准?这两组是如何划分的?

(1)“大多数”的标准确定:这个比较容易,只要这些观测值落入某一组的概率比较大,我们就可说是“大多数”观测值将落入这一组当中。

(2)两个组的划分:先想一下,我们知道,b 的估计值b

在这里是随机变量(因为它是被解释变量C 函数,而C 是随机变量),因此如果我们知道了它的统计规律(分布函数或密度函数,注意我们研究随机现象的终极目的是完全知道其统计规律,即在多次重复取样情况下随机现象的规律性特征,而如果分布函数或密度函数已知,则就相当于统计规律已知,当然,密度函数不是在任何情况下都存在的,这一点要反复强调),那么我们就会判断出我们的每

一个观测值是落入b 的真实值出现的可能较大的地方还是较小的地方。例如:如果b

的密度函数已知,且具有如下

图所示的形式,那么我们显然很容易判断出每一个观测值出现可能性的大小。

从图中我们可以看到,其中有4个点落入了密度较小的观测值可能取值的区域了,而另2个值落入密度较大的

区域了,这说明对于这6个观测值而言,大部分都落入了b

随机变量出现可能必较小的区域了。从这一分析出发,很显然,我们可以通过在观测值轴上划两个点A 和A /

来对b

的所有可能结果进行分组,观测值落入A 点的左边或

A /点的右边是一组,落入A 与A /点之间是一组。前者是可能性较小的组,后者是可能性较大的组。

(3)判断是否支持原假设的方法:既然我们提前假设原假设是正确的,那么我们就应充分利用这一条件。试想,

如果我们在上图的分析中,b

的密度函数是在原假设成立的情况下得出的,那么我们就可以对原假设的正确性进行统计判断了:如果观测值落入b

取值可能性较小的区域内,则说明原假设不正确;反之,则说明原假设是正确的。

(严格说来,应是原假设是可接受还是不可接受,因为对随机现象而言,没有绝对的正确性)

三.置信区间基本理论

置信区间是对参数估计准确度的另一种度量方式,其所依据的基本思想如下(仍以上面消费函数模型为例):由

于b 是b 的估计值,因此我们总希望能测定出b 偏离b 的程度,程度越小,说明b

越是b 的一个较好的估计。但是我们知道,b 是一个随机变量,因此我们不能像处理非随机变量一样,用︱b

-b ︱来表示它们的偏离程度,那么对

随机变量的情形,我们应如何测定它们的偏离程度呢?实际上,我们可以这样处理,既然︱b

-b ︱是不确定的,那

么我们可以通过多次观测来找出︱b

-b ︱大于某个值的可能性,我们知道,这种可能性可

用概率来表示。即找出︱b

-b ︱大于某个值的概率。但是由于某个值并不太好确定,因此我们可以再变换一下思路:

先确定︱b -b ︱偏离某个值的概率,然后在︱b

-b ︱分布已知的情况下再求出这个值。这就是置信区间问题的基本思想。

四.最小二乘估计量的分布特征及扰动项方差的求解

1.为什么要先知道最小二乘估计量的分布及扰动项的方差呢?

从前面关于“假设检验”与“置信区间”的基本思想介绍过程可以看出,要进行这两部分工作,其前提是必须知道

最小二乘估计量,a b 的分布(也就是其统计规律)。不过,问题到此还没有结束,前面我们知道,最小二乘估计量,a b

都是被解释变量Y i 的线性函数(2

()(),()

i

i i

y y x x b a

y b x x x --=

=--∑∑ ,在x i 、Y 是常数的条件下,显然,a b 是Y i

线性函数),因此实际上,我们只有知道而且只要知道了Y i 的分布,就可以而且才能知道,a b

的分布,而要求Y i 的分布,我们还必须知道拢动项方差2

σ的估计。要看出这一点,还要事先知道一些关于正态分布的理论。

2.正态分布及其基本特征 (1)正态分布的概念解说

我们知道,任何分布都是指的某个随机变量的统计规律(即在大量重复实验或抽样情况下实验或抽样结果出现的规律性),而这种规律性在数学上是用分布函数或密度函数(不一定所有的随机变量都有密度函数,只有连续性随机变量才有,一般情况下我们所遇到或研究的都是有密度函数的随机变量),那么正态分布的随机变量是指密度函数具有

如下形式的随机变量:22

()()2x u f x σ??-=????

,这里2,,u σσ分别表示随机变量的数学期望(平均值)、方差和标准差。

(2)正态分布随机变量的三个特征

①如果一个随机变量服从正态分布,则它的分布完全由其数学期望与方差所决定,即只要我们知道了这个随机变量的数学期望(平均值)及方差,那么这个随机变量的统计规律就完全确定了。关于这一结论,我们可以从正态分布的密度函数马上看出。

②与正态分布有关的另一个的结论是:如果随机变量A 是随机变量B 的线性函数,而随机变量B 服从正态分布,那么随机变量A 也服从正态分布,只不过它们的均值与方差会有所差异,即是不同类型的正态分布。(注意,这个结论不是只针对于正态分布的,这里对其专门强调是为了下面直接应用结论) ③如果一个随机变量2(,)N u εσ ,那么

(0,1)u N εσ- ,此时我们说u

εσ

-服从标准正态分布。在具体的应用过程中,出于简化分析的目的,我们往往要将一个正态分布标准化。

3.拢动项方差求解

(1)基本分析:首先,根据前面的分析,我们可以得以下两个结论:第一,,a b 均服从于正态分布;第二,求,a b

的分布必须知道拢动项方差2

σ的估计,原因是如果2

σ是一个未知数,那么Y i 的分布从而,a b

的分布就不可能知道,

而在得到2

σ的估计的情况下,我们至少可以知道,a b

的大致分布。

(2)拢动项方差2

σ的估计:

①基本公式:2

σ的无偏估计为:2

2

1

2

n

i

i e

n σ==

-∑ ,这里n 是抽样调查(或重复实验)的数量(或次数),

i i i e Y a bX =--

,即样本残差项(注意与残差拢动项区别开来,后者是一个抽象的随机变量,前者则是在每次抽样

后所观察到的偏误),这一估计是2

σ的无偏估计。

②推导的基本思路过程:首先,我们的目的是要求i ε偏离其平均值的程度的度量2

σ,直观的看,其偏离平均值的程度大致可以用所有i ε的取值与其平均值的偏离的平方和来表示,但是如果直接用平方和来表示,则有两个问题难以解决:第一是i ε的确切值我们并不知道;第二,用平方和来表示偏离程度会产生i ε取值越多,平方和越大的情况,这显然与事实不符。因此,我们还必须对平方和进行进一步的“加工”,“加工”方法如下:第一,由于e i 是i ε的近似值且e i 可通过样本观测得到,因此,我们可用e i 来代替i ε;第二,为了消除抽样(观测)次数多少对平方和的

影响,我们有必要将抽样次数的影响消去,解决办法是用平方和去除抽样次数。这样就得到了2

2

1

n

i

i e

n

σ==

∑ 。但将其

与前面的标准公式比较,我们还是发现了一点差异:前面分母是n-2,而我们这里是n 。产生这种差异的原因是这n 次抽样观测并不是独立的,因为我们还要利用它们先求出e i ,而这使得这些抽样观测之间取得了一些联系。具体来

说,由于i i i e Y a bX =-- ,因此实际上我们是先求出了,a b

,而这消耗了我们的两个自由度(自由变化的变量个数,

想像一下线性代数中的联立方程组中的变量组成情况,若一个方程组中有4个未知变量,而方程组个数是2,那么说明方程组只有两个自由变动的变量)。

4.最小二乘估计量的分布

(1),a b

的分布

,a b

的分布分别为:

2221(,[])()i X a N a n X X σ+-∑ ,22

(,)()i

b N b X X σ-∑ 计算过程用到了这样两个条件:第一,,a b

是Y i 的线性函数,故服从正态分布;第二,服从正态分布的随机变量的分布取决随机变量的均值与方差,利用,a b 与Y i 之间的线性关系可以求出,a b

的均值与方差(由于是无偏估计,

故均值可一眼看出即为a 、b )。

(2)b

分布的标准化

①首先要注意的是,由于无论从经济意义还是统计分析的角度来看,a

均不是我们所关注的重点,因此在一般

情况下,统计检验与置信区间分析都只是针对b

的。(从统计上来看,a 的作用基本仅在于使随机扰动项的均值为0,

在经济上,它除表示一种初始状态以外,也没有特别的含义。)

②b

分布的标准化:(0,1)b Z N =

五.假设检验

1.检验的目的与原假设

正如我们前面所说,假设检验的目的在于排除我们对最小二乘估计所得结果非0的偶然性的怀疑(即我们可能认为实际上解释变量与被解释变量并无相关关系,尽管估计结果所得具体值非0,但我们有理由置疑这可能只是一种巧合)。为此,我们先设定一个假设成立,这个假设即是原假设,为H 0:b=0(即解释变量与被解释变量实际上并无关系)。我们通过分析多个抽样调查观测值的特征来对这个假设进行评判。要注意的是,关于原假设是0的检验,通常我们叫做显著性检验。

2.检验原假设

(1)前面讲过,要检验原假设,只需满足两个条件:第一,知道在原假设成立条件下b 的分布;第二,知道b

的某个观测值(原则上要求每次所取得的观测值应是在完全相同的条件下抽取的)。只要知道上述两个条件,我们就

可以通过判断观测值是否落入b

出现可能性大的区域内来判断了。

(2)b

分布的确定:从b 所具备的现有条件来看,易于知道,我们还无法确定b 的分布。这是因为,根据理论,

由于b

服从正态分布,因此我们只要知道其均值与方差就可完全知道其分布。但不幸的是,尽管在原假设成立条件下,b 的均值已知是0,但除非我们事前假设2

σ的具体值,否则无论如何我们也无法知道它到底是多少(抽样永远

只能是在有限情况下进行)!为此,我们需要找2

σ的一个替代值,这个替代值前面我们已给出了。这样,我们就可

利用标准化以后的(2)b Z t n =

-

来进行假设检验了(此时b Z 已不再服从标准正态分布,而是

服从与其相近的一个叫做t 分布的分布)。

(3)检验过程:

第一,我们先确定b Z 落入某个区间内的可能性(概率),一般我们希望这个可能性要很大,例如,90%以上;第二,根据这个可能性,求出这个区间的范围(即b Z 的取值范围)。具体方法如下:

假设我们规定b Z 在某一个区间内出现的可能性为95%,我们来求这个区间。首先,由

(2)b Z t n =

-

,因此这意味着0.025)0.95P t <=,t 0.025可通过查t 分布

的分布表马上得到。这样,如果b 的估计值落入这个区间,那么显然我们应接受原假设,否则就要拒绝。

(4)在实际当中的应用

在EVIEWS 估计结果列表中,有一个T 值列表,一般来说,如果这个值的绝对值大于等于2,则说明原假设是不应被接受的,即从统计上来看,b 是非0的。也就是说,解释变量确实是影响被解释变量的重要因素,它们是有相关关系的。否则,就说明解释变量不是影响被解释变量的重要因素,这个解释变量不宜用于对被解释变量的解释,应将其从模型中去掉而选择其它新的解释变量。

Dependent Variable: C1 Method: Least Squares Date: 09/26/04 Time: 06:59 Sample(adjusted): 1982 1999

C 5788.553 1446.866 4.000753 0.0010 R-squared

0.681221 Mean dependent var 12372.40 Adjusted R-squared 0.661297 S.D. dependent var 6624.073 S.E. of regression 3855.090 Akaike info criterion 19.45662 Sum squared resid 2.38E+08 Schwarz criterion 19.55555 Log likelihood -173.1095 F-statistic 34.19151

六.置信区间

(1)求置信区间的目的:如上所说,求置信区间的目的是为了求出b

真实值b 出现在某一个区间内的可能性(因

为真实的b 我们无法得知),因此,我们同样需要知道b 的分布。但与假设检验当中碰到的问题一样,这也无法办到,

而其解决办法也是用2

σ 来代替

2

σ,所不同的是,这里不存在一个前提假设,其过程基本相似。

(2)求解过程:由于(2)b Z t n =

-

,因此通过0.025)0.95P t <=

我们同样可以得到一个相同的t 0.025,

代入b

0.025t <,就可得到b 的一个置信

区间b t b b t -≤≤+

(3)实际应用:

第一,置信区间的主要作用在于,在我们不知道参数的真实取值的情况下,我们试图大致确定一下它出现于某一个区间的可能性;第二,置信区间的计算在实际应用当中一般不太用,其主要应用在于预测。即如果你的目的是要预测一个被解释变量在未来的取值,那么你就有必要用这个指标来表明你的预测精度。

第六节 预测

一.点预测

3.如何看待点预测的误差: e *

是一个确定的数还是一个随机变量?

我们假设初始的模型为Y a bX ε=++,利用样本数据所估计得到的模型(回归方程)为Y a bX =+

,显然我们可以看到,如果在固定了未来X 的值之后,未来Y 的真实值Y *

真的已知,那么预测误差当然可以用Y 的未来预

测值*Y 与真实值之差的绝对值来表示,即**

*

e Y Y =- 来表示。

但不幸的是,我们实际上根本就不知道未来Y 的实际值Y *

(否则我们就不用预测了,实际上根据我们的假设,

作为被解释变量的Y *

本身就是随机变量),那么在这种情况下我们应如何对预测误差进行估计呢?现在我们再回头

看一下e *

的构成特征:*

*

*e Y Y =- 。我们知道,e *

是在*Y 已知的基础上才可以求出的,但*Y 的变化是随着,a b 的

变化而变化的,而我们知道,a b 是随机变量,因而*Y 也是随机变量,从而**

*e Y Y =- 也是随机变量。

这表明,如果我们要对被解释变量的未来值进行预测,其预测误差的来源是因为我们在第一步进行,a b

的估计

时已产生了误差,这种误差是一种派生误差。(这里指的是在未来X 值是确定的条件下)。由***

e Y Y =- 做为误差

的度量可知,现在我们的预测误差的精度问题又变成了估计量*

Y 与它的实际真实值Y *

之间的关系问题了,而这就

是前面我们讲的估计量的特性的一些判断方法。但是由于这里Y *

是随机变量,因此这些特征还有一些特殊之处。

4.点预测估计量的一些性质

(1)线性性:指的是Y 的点预测*

Y 是被解释变量样本组Y 1、Y 2…的线性函数。这一点容易看出,因为

**Y a bX =+ ,而,a b

均是Y i 的线性函数。由此也可知,*Y 同样也是服从正态分布的。

(2)无偏性:由于Y *

是一个随机变量,因此这里的无偏性指的是*

Y 与Y *

的平均值(数学期望)相等。简单

证明如下:*

**

*****

()()

E Y Y E a bX a bX a bX E Ea X Eb a bX a bX εε-=++--=++--=+--=

(3)方差:(此处课本证明过程有误,但结论没错,为什么?)由于Y *

是一个随机变量,因此此处我们无法得

知*Y 的平均值(数学期望),因此也就无法直接求*Y 的方差(因为按定义*

Y 方差的计算公式是***

()[]VAR Y E Y EY =- )

,为此,我们转而求**

Y Y - 的方差(这有两方面的原因:一是这样计算不会偏离我们的主旨,即可以度量估计值与真实值之间的差距;二是*

*

Y Y - 的平均值为0)。

在已知,a b 的方差及,a b 的协方差的基础之上,我们可以得到**

Y Y - 的方差为:

**22**2

20022

()()()11()[1][1]()()

Y Y i i X X X X Var Y Y S n X X n X X σσ----=++≈++=--∑∑ 5.点预测的预测区间精度

(1)含义:它指的是估计值与真实值的偏离程度,即前面所说的区间估计的内容。 (2)预测区间精度的计算:

由于***

*

()

(2)Y Y Y Y T t n S --=

- ,即对于T ,其分布规律我们已知,因此我们可以先给这T 的绝对值大于某一个数的概率,然后求出这个值,我们就可求出*

Y 在某一范围内偏离Y *

的可能性有多大。即用比较严格的术语说,就是我们先给定T 的一个1α-大小的置信度,然后再求这个临界值。具体而言,由此得出的*

*

Y Y - 之间的偏离度为

*****

*()

()2

2

Y Y Y Y t S

Y Y t S αα--<-<

或******

*

()()2

2

Y Y Y Y t S Y Y t S Y αα--+<<+ 。从后一个式子我们可比较明显的看出其含

义:如果我们预测得到了一个*

Y 的具体值,我们就能告诉其它人,在一定的可能性条件下,真实值大概位于一个多大的范围内。

一元线性回归的一些拓展

3.没有常数项的情形 (1)问题的提出

回忆前面的内容,我们对一元线性回归模型的基本假定均是Y a bX ε=++的形式,也就是说,在我们的模型设定中,既有常数项a ,也有表示斜率的系数b 。但在现实经济生活当中,从一些经济理论出发,我们还可发现有的两个变量之间的关系是成正比关系,而按照这种理论规定,那么显然,上面模型中的设定要进行修改如下修改:Y bX ε=+,但现在的问题就是:在做了这样的模型修改后,所估计的结果与原来基本模型中的估计结果会有何不同呢? (2)实例

如果学过证券投资学的话,那么我们知道有效率的证券市场中的单个证券平均收益与整个市场的收益(可通过股指收益来表示,如上证指数等)有如下关系:()i

f i m f ER r ER r β-=-,这里,,i f m R r R 分别表示

第I 个证券、无风险证券和整个市场的收益水平,i β则表示与整个市场相联系而不能通过证券组合投资分散的风险。一般来说,i

f

ER r -与i β之间的关系即称为证券市场线。在很多情况下,我们在投资前要估计某个证券的系统风

险大小,因而我们可以采用如下的模型:()i f i m f i R r R r βε-=-+(回归直线形式如下图所示)。

其他的例子还有永久性收入假说、货币的数量论假说等。

(3)回归系数的特点

系统风险i β 证券风险

i f R r - 资产定价模型中的回归直线

分别假设具有如下的两个模型形式: 模型1:Y a bX ε=++ 模型2:Y bX ε=+

我们来看一下,模型1与模型2在系数估计、参数显著性检验(T 值的大小)、拟合优度等方面有何区别。 首先,为了估计参数,我们去调查了一组关于X 、Y 的样本数据,分别为X 1、X 2…X n 和Y 1、Y 2…Y n ,现在我们在这组样本数据的基础上利用最小二乘法去估计b 的值。

第一,b 的估计及其特征。

对于模型1有,根据最小二乘法的含义,只要使22

11

1

()()n n i i i i i i Q Y Y Y a bX ===-=--∑∑ 最小即可。而由微积分中

的求极值原理可知,这只要使得:10Q

b

?=? 即可。由此解得(经简单化简,见课本P72):1

2

1

()()()n

i

i i n i

i X

X Y Y

b X

X ==--=

-∑∑ ,

代入Y i ,可得其方差为2

2

()()i Var b X X σ=

-∑

与模型1相似,从模型2中解b 意味着只要使22211()()n

n i i i i i i Q Y Y Y bX ===-=-∑∑ 最小化即可。于是,由2

Q b

?=? 可得,()0i i i Y bX X -=∑

,解得:i i

i

Y X b X

=

∑∑ ,同样,其方差为2

2

()i

Var b X σ=∑ 。 比较所得结果可知,过原点回归与不过原点回归所得结果是很不相同的,而且过原点回归模型的系数估值标准差较小,因而如果真实的模型应当是过原点的,而我们自己设定的模型是不过原点的,则所得估计结果是不准确的,但一般来说,这种差别主要体现在在这种情况下,过原点回归所得系数更准确一些(从统计上来说,例如,由于其标准差较小,因而置信区间也较小)。

第二,拟合优度

由拟合优度的定义,它是从以下式子中推导而得的:

2222

2()()()()()i i i i i i i Y Y Y Y Y Y Y Y b X X -=---=---∑∑∑∑∑ ,而在过原点的情况下则有:

222()i i i i Y Y Y b X -=-∑∑∑ ,可见,在这种情况下,拟合优度可能会为负(拟合优度=2

2

()1()

i i i i Y Y Y Y ---∑∑ )

。 其它需要注意的问题:

由22

11

1

()()n n i i i i i i Q Y Y Y a bX ===-=--∑∑ 最小化也上可得出,对a 求导有:()0i i i Y Y e -==∑∑ ,而这在过原

点的情况下不成立,因而实际上,正如我们前面所说,一元回归模型中的常数项实际上保证了误差项的均值等于0,因此,如果模型不是过原点的,而设定时将其设为过原点的,则后果要比上面说的反过来的情形要严重的多(违反了最小二乘法的假定),这在应用中的意义在于,我们通常要将模型写成带常数项的形式,除非我们事前有充足的证据。

(1)用Excel作一元线性回归分析

实验四(1)用Excel作一元线性回归分析 实验名称:回归分析 实验目的:学会应用软件实验一元线性回归,多元线性回归和非线性回归模型的求解及应用模型解决相应地理问题。 1 利用Excel进行一元线性回归分析 第一步,录入数据 以连续10年最大积雪深度和灌溉面积关系数据为例予以说明。录入结果见下图(图1)。 图1 第二步,作散点图 如图2所示,选中数据(包括自变量和因变量),点击“图表向导”图标;或者在 “插入”菜单中打开“图表(H)”。图表向导的图标为。选中数据后,数据变为蓝色(图2)(office2003)。插入-图表(office2007)

图2 点击“图表向导”以后,弹出如下对话框(图3): 图3 在左边一栏中选中“XY散点图”,点击“完成”按钮,立即出现散点图的原始形式(图4):

图4 第三步,回归 观察散点图,判断点列分布是否具有线性趋势。只有当数据具有线性分布特征时,才能采用线性回归分析方法。从图中可以看出,本例数据具有线性分布趋势,可以进行线性回归。回归的步骤如下: ⑴ 首先,打开“工具”下拉菜单,可见数 据分析选项(见图5) (office2003)。数据-数据分析(office2007) : 图5 用鼠标双击“数据分析”选项,弹出“数据分析”对话框(图6):

图6 ⑵然后,选择“回归”,确定,弹出如下选项表(图7): 图7 进行如下选择:X、Y值的输入区域(B1:B11,C1:C11),标志,置信度(95%),新工作表组,残差,线性拟合图(图8-1)。 或者:X、Y值的输入区域(B2:B11,C2:C11),置信度(95%),新工作表组,残差,线性拟合图(图8-2)。 注意:选中数据“标志”和不选“标志”,X、Y值的输入区域是不一样的:前者包括数据标志: 最大积雪深度x(米)灌溉面积y(千亩) 后者不包括。这一点务请注意(图8)。

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

一元线性回归分析

第八章 第二节 一元线性回归分析 ●一、什么是回归分析? 测定变量之间数量变化关系的数学方法,称为回归分析。只有一个因变量和一个自变量的线性回归模型,叫一元线性回归模型。由于总体回归函数实际上是未知的,一元线性回归模型称为“样本回归直线”。其近似的函数关系为: t u x y ++=211ββ 其中:β1、β2是待定系数,也叫回归系数。u t 又 称随机干扰项,(或随机误差项)它是一个特殊的随机变量,反映未列入方程式的其他各种因素对y 的影响,随机误差项u t 是无法直接观测的。随机误差项u t 的假定条件如下: ●二、标准假定(高斯假定): (1)误差项的期望值为0,即: )(t u E (2)误差项的方差为常数,即:2 2)()(σ==t t u E u Var ; (3)误差项之间无系列相关关系,其协方差为0, 即:0)()(==s t s t u u E u u Cov ; (4)自变量是给定的变量,与随机误差项线性无关; (5)随机误差项服从正态分布。 ※关于非标准条件下的分析方法参照《计量经济学》。

●三、回归系数β1、β2的估计值 由于假定的第一条,故:x y t 21ββ+=。理论上令: ∑∑=--=-0)(0)(2 2 12 x y y y t ββ 对β1、β2求偏导数,经整理得: ? ??? ?-=--=∑∑∑∑∑x y x x n y x xy n 212 22)(βββ 以相关分析中例题为例: ▲案例1:某地区对15户居民家庭人均可支配收入与某类商品消费支出的调查数据如下:(百元/月) 合计:ΣX=1516,ΣY=423,ΣXY=44632, ΣX 2=163654,ΣY 2 =12311 。代入公式: ??? ??? ? =-??-?==?-=1802 .0151616365415423151644632159872.91515161802.015423221ββ 回归方程为: x y t 1802.09872.9+= ◎ 9.9872和0.1802的经济含义?

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

案例分析(一元线性回归模型)

案例分析报告(2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号:2204120202 学生姓名:陈维维 2014 年11月

案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支

多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的降到1980年,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

, 设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年 年份 @ 人口自然增长率 (%。) 国民总收入 (亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15037 1366 1989 … 17001 18 1519 1990 18718 1644 1991 【 21826 1893 1992 26937 2311 1993 . 35260 2998 1994 48108 4044 1995 — 59811 5046 1996 70142 5846 1997 ~ 78061 6420 1998 83024 6796 1999 【 88479 7159 2000 98000 7858 2001 [ 108068 8622 2002 119096 9398 2003 : 135174 10542 2004 159587 12336 2005 、 184089 14040 2006 213132 16024

一元线性回归总结分析

第十一章 一元线性回归 本章主要介绍数值型自变量和数值型因变量之间关系的分析方法,这就是相关与回归分析。如果研究的是两个变量之间的关系,称为简单相关与简单回归分析;如果研究的是两个以上变量之间的关系,称为多元相关与多元回归分析。本章主要讨论简单线性相关和简单线性回归的基本方法。 本章知识结构如下: 主要知识点: 变量间关系的度量 变量之间的关系可分为两种类型,即函数关系和相关关系。 变量之间存在的不确定的数量关系,称为相关关系。 相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量y 的取值可能有几个。对这种关系不确定的变量显然不能用函数关系来描述,但也不是无规律可循。相关与回归分析正是描述与探索这类变量之间关系及其规律的统计方法。 判断相关性的方法: 方法一:散点图法 1、判断变量间的相关性 2、相关关系的显著性检验 r 的显著性检验 步骤:○1提出假设○2计算检验的统计量t ○3进行决策(即比较t 与 t 2 α ) 3、一元线性回归 4、回归方程拟合优度的判断 主要方法 5、回归方程的显著性检验 6、利用回归方程进行预测 7、残差分析 残差、残差图及标准化残差 一 元 线 性 回 归 主要方法 a)散点图法 b)相关系数法 方法及步骤 1、建立模型εββ++=x y 11 2、写出回归方程()x y E 110ββ+= 3、利用最小二乘法对参数进行估计 a) 判定系数法R 2 b) 估计标准误差S e 主要方法 a) 线性关系的检验——模型的检验,即F 检验 b) 回归系数的检验,即t 检验 类型 a) 点估计 b) 区间估计

散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。 方法二:相关系数法 () () ∑∑∑∑∑∑∑-*--= 2 2 2 2 y n x n y x xy n r y x 利用相关系数可以准确度量两个变量之间的关系强度。 利用Excel 软件计算相关系数: “工具” → “数据分析”→“相关系数” → “选入数据” → “确定”即可。 相关关系的显著性检验 考察样本相关系数的可靠性,也就是进行显著性检验。 r 的显著性检验 1、提出假设 0:;0:10 ≠=ρρH H 2、计算检验统计量 ()2~122 ---=n t n r t r 3、进行决策 根据给定的显著性水平α和自由度2-=n df 查t 分布表,得出 ()22 -n t α的临界值。若t t α >,则拒绝原假设H 0,表明总体的两个变 量之间存在显著的线性关系。 一元线性回归 回归模型:εββ++=x y 110 )1,0(=i i β 称为模型的参数。 ε称为误差项,反映了除x 与y 之间的线性关系之外的随机因素 对y 的影响。 一元线性回归方程的形式: ()x y E 110ββ+= β 1 表示当自变量每变化一个单位时,因变量变化β1 个单位。 β 不赋予任何意义。 参数的最小二乘估计: 用Excel 软件进行操作: “工具” → “数据分析” → “回归” → “选入数据” → “确

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

计量经济学习题与解答

第五章经典单方程计量经济学模型:专门问题 一、内容提要 本章主要讨论了经典单方程回归模型的几个专门题。 第一个专题是虚拟解释变量问题。虚拟变量将经济现象中的一些定性因素引入到可以进行定量分析的回归模型,拓展了回归模型的功能。本专题的重点是如何引入不同类型的虚拟变量来解决相关的定性因素影响的分析问题,主要介绍了引入虚拟变量的加法方式、乘法方式以及二者的组合方式。在引入虚拟变量时有两点需要注意,一是明确虚拟变量的对比基准,二是避免出现“虚拟变量陷阱”。 第二个专题是滞后变量问题。滞后变量包括滞后解释变量与滞后被解释变量,根据模型中所包含滞后变量的类别又可将模型划分为自回归分布滞后模型与分布滞后模型、自回归模型等三类。本专题重点阐述了产生滞后效应的原因、分布滞后模型估计时遇到的主要困难、分布滞后模型的修正估计方法以及自回归模型的估计方法。如对分布滞后模型可采用经验加权法、Almon多项式法、Koyck方法来减少滞项的数目以使估计变得更为可行。而对自回归模型,则根据作为解释变量的滞后被解释变量与模型随机扰动项的相关性的不同,采用工具变量法或OLS法进行估计。由于滞后变量的引入,回归模型可将静态分析动态化,因此,可通过模型参数来分析解释变量对被解释变量影响的短期乘数和长期乘数。 第三个专题是模型设定偏误问题。主要讨论当放宽“模型的设定是正确的”这一基本假定后所产生的问题及如何解决这些问题。模型设定偏误的类型包括解释变量选取偏误与模型函数形式选取取偏误两种类型,前者又可分为漏选相关变量与多选无关变量两种情况。在漏选相关变量的情况下,OLS估计量在小样本下有偏,在大样本下非一致;当多选了无关变量时,OLS估计量是无偏且一致的,但却是无效的;而当函数形式选取有问题时,OLS估计量的偏误是全方位的,不仅有偏、非一致、无效率,而且参数的经济含义也发生了改变。在模型设定的检验方面,检验是否含有无关变量,可用传统的t检验与F检验进行;检验是否遗漏了相关变量或函数模型选取有错误,则通常用一般性设定偏误检验(RESET检验)进行。本专题最后介绍了一个关于选取线性模型还是双对数线性模型的一个实用方法。 第四个专题是关于建模一般方法论的问题。重点讨论了传统建模理论的缺陷以及为避免这种缺陷而由Hendry提出的“从一般到简单”的建模理论。传统建模方法对变量选取的

一元线性回归分析的结果解释

一元线性回归分析的结果解释 1.基本描述性统计量 分析:上表是描述性统计量的结果,显示了变量y和x的均数(Mean)、标准差(Std. Deviation)和例数(N)。 2.相关系数 分析:上表是相关系数的结果。从表中可以看出,Pearson相关系数为0.749,单尾显著性检验的概率p值为0.003,小于0.05,所以体重和肺活量之间具有较强的相关性。 3.引入或剔除变量表

分析:上表显示回归分析的方法以及变量被剔除或引入的信息。表中显示回归方法是用强迫引入法引入变量x的。对于一元线性回归问题,由于只有一个自变量,所以此表意义不大。 4.模型摘要 分析:上表是模型摘要。表中显示两变量的相关系数(R)为0.749,判定系数(R Square)为0.562,调整判定系数(Adjusted R Square)为0.518,估计值的标准误差(Std. Error of the Estimate)为0.28775。 5.方差分析表 分析:上表是回归分析的方差分析表(ANOVA)。从表中可以看出,回归的均方(Regression Mean Square)为1.061,剩余的均方(Residual Mean Square)为0.083,F检验统计量的观察值为12.817,相应的概率p 值为0.005,小于0.05,可以认为变量x和y之间存在线性关系。

6.回归系数 分析:上表给出线性回归方程中的参数(Coefficients)和常数项(Constant)的估计值,其中常数项系数为0(注:若精确到小数点后6位,那么应该是0.000413),回归系数为0.059,线性回归参数的标准误差(Std. Error)为0.016,标准化回归系数(Beta)为0.749,回归系数T检验的t统计量观察值为3.580,T检验的概率p值为0.005,小于0.05,所以可以认为回归系数有显著意义。由此可得线性回归方程为: y=0.000413+0.059x 7.回归诊断 分析:上表是对全部观察单位进行回归诊断(Casewise Diagnostics-all cases)的结果显示。从表中可以看出每一例的标准

高级计量经济学之第5章分布滞后与动态模型

第5章 分布滞后与动态模型 §5.1 分布滞后模型 很多经济模型在回归方程中有滞后项,例如,因为修建桥和高速公路需要很多时间,所以公共投资对GDP 的影响有一个滞后期,而且这个影响可能会持续数年;研发新产品需要时间,而后把这个新产品投入生产也需要时间;在研究消费行为时,一个工资的变化可能影响好几期的消费。在消费的恒久收入理论中,消费者会用若干期去决定真实可支配收入的变化是暂时的还是永久的。例如,今年额外的咨询费收入明年是否还会继续?同样,真实可支配收入的滞后值会在回归方程中出现,是因为消费者在平滑其消费行为时十分重视他自身的终身收入。一个人的终身收入可以用他过去和现在的收入来推测。换句话说,回归关系可以写为: T t X X X Y t s t s t t t ,,2,1110 =+++++=--εβββα (5.1) 其中,t Y 代表被解释变量Y 在第t 期的观测值,t s X -代表解释变量X 第t s -期的观测值,α为截距项,0β,1β,…,s β是t X 当期和滞后期的系数。方程(5.1)式就是分布滞后模型因为它把收入增长对消费的影响分为s 期。X 的一个单位变化对Y 的短期影响由0β来表示,而X 的一个单位变化对Y 的长期影响由 (s βββ+++ 10)来表示。 假设我们观察从1955年到1995年的t X ,1t X -为相同的变量,但是提前一期的,也就是1954-1994。因为1954年的数据观察不到,我们就从1955年开始观察 1t X -,到1994年结束。这意味着当我们滞后一期时,t X 序列将从1956年开始到 1995年结束。对于实际的应用来说,也就是当我们滞后一期时,我们将从样本中

计量经济学判断题 )

1. 总离差平方和可分解为回归平方和与残差平方和。( 对 ) 2. 整个多元回归模型在统计上是显着的意味着模型中任何一个单独的解释变量均是统计显着的。( 错 ) 3. 多重共线性只有在多元线性回归中才可能发生。( 对 ) 4. 通过作解释变量对时间的散点图可大致判断是否存在自相关。( 错 ) 5. 在计量回归中,如果估计量的方差有偏,则可推断模型应该存在异方差( 错 ) 6. 存在异方差时,可以用广义差分法来进行补救。( 错 ) 7. 当经典假设不满足时,普通最小二乘估计一定不是最优线性无偏估计量。( 错 ) 8. 判定系数检验中,回归平方和占的比重越大,判定系数也越大。( 对 ) 9. 可以作残差对某个解释变量的散点图来大致判断是否存在自相关。( 错 )做残差 ) n 5、经典线性回归模型(CLRM )中的干扰项不服从正态分布的,OLS 估计量将有偏的。错,,即使经典线性回归模型(CLRM )中的干扰项不服从正态分布的,OLS 估计量仍然是无偏的。 因为222)()?(βμββ=+=∑i i K E E ,该表达式成立与否与正态性无关。 1、在简单线性回归中可决系数2R 与斜率系数的t 检验的没有关系。错误,在简单线性回归 中,由于解释变量只有一个,当t 检验显示解释变量的影响显着时,必然会有该回归模型的可决系数大,拟合优度高。 2、异方差性、自相关性都是随机误差现象,但两者是有区别的。正确,异方差的出现总是与模型中某个解释变量的变化有关。自相关性是各回归模型的随机误差项之间具有相关关

系。3、通过虚拟变量将属性因素引入计量经济模型,引入虚拟变量的个数与模型有无截距项无关。错误,模型有截距项时,如果被考察的定性因素有m个相互排斥属性,则模型中引入m-1个虚拟变量,否则会陷入“虚拟变量陷阱”;模型无截距项时,若被考察的定性因素有m个相互排斥属性,可以引入m个虚拟变量,这时不会出现多重共线性。 4、满足阶条件的方程一定可以识别。错误,阶条件只是一个必要条件,即满足阶条件的的方程也可能是不可识别的。 5、库依克模型、自适应预期模型与局部调整模型的最终形式是不同的。错误,库依克模型、自适应预期模型与局部调整模型的最终形式是相同的,其最终形式都是一阶自回归模型。2、多重共线性问题是随机扰动项违背古典假定引起的。错误,应该是解释变量之间高度相关引起的. (3) 线性回归模型意味着因变量是自变量的线性函数。(错) (4) 在线性回归模型中,解释变量是原因,被解释变量是结果。(对) 1、虚拟变量的取值只能取0或1(对) 2、通过引入虚拟变量,可以对模型的参数变化进行检验(对) 1、简单线性回归模型与多元线性回归模型的基本假定是相同的。错 在多元线性回归模型里除了对随机误差项提出假定外,还对解释变量之间提 出无多重共线性的假定。 2、在模型中引入解释变量的多个滞后项容易产生多重共线性。对 在分布滞后模型里多引进解释变量的滞后项,由于变量的经济意义一样,只

多元线性回归模型案例

我国农民收入影响因素的回归分析 本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。?农民收入水平的度量常采用人均纯收入指标。影响农民收入增长的因素是多方面的,既有结构性矛盾因素,又有体制性障碍因素。但可以归纳为以下几个方面:一是农产品收购价格水平。二是农业剩余劳动力转移水平。三是城市化、工业化水平。四是农业产业结构状况。五是农业投入水平。考虑到复杂性和可行性,所以对农业投入与农民收入,本文暂不作讨论。因此,以全国为例,把农民收入与各影响因素关系进行线性回归分析,并建立数学模型。 一、计量经济模型分析 (一)、数据搜集 根据以上分析,我们在影响农民收入因素中引入7个解释变量。即:2x -财政用于农业的支出的比重,3x -第二、三产业从业人数占全社会从业人数的比重,4x -非农村人口比重,5x -乡村从业人员占农村人口的比重,6x -农业总产值占农林牧总产值的比重,7x -农作物播种面积,8x —农村用电量。

资料来源《中国统计年鉴2006》。 (二)、计量经济学模型建立 我们设定模型为下面所示的形式: 利用Eviews 软件进行最小二乘估计,估计结果如下表所示: DependentVariable:Y Method:LeastSquares Sample: Includedobservations:19 Variable Coefficient t-Statistic Prob. C X1 X3 X4 X5 X6 X7 X8 R-squared Meandependentvar AdjustedR-squared 表1最小二乘估计结果 回归分析报告为: () ()()()()()()()()()()()()()()() 2345678 2? -1102.373-6.6354X +18.2294X +2.4300X -16.2374X -2.1552X +0.0100X +0.0634X 375.83 3.7813 2.066618.37034 5.8941 2.77080.002330.02128 -2.933 1.7558.820900.20316 2.7550.778 4.27881 2.97930.99582i Y SE t R ===---=230.99316519 1.99327374.66 R Df DW F ====二、计量经济学检验 (一)、多重共线性的检验及修正 ①、检验多重共线性 (a)、直观法 从“表1最小二乘估计结果”中可以看出,虽然模型的整体拟合的很好,但是x4x6

计量经济学分析模型

计量经济学分析模型

摘要 改革开放以来,我国经济呈迅速而稳定的增长趋势,由于分配机制和收入水平的变化,城镇居民生活水平在达到稳定小康之后,消费结构和消费水平都出现了一些新的特点。本文旨在对近几年,我国城镇年人均收入变动对年人均各种消费变动的影响进行实证分析。首先,我们综合了几种关于收入和消费的主要理论观点;本文根据相关的数据统计数据,运用一定的计量经济学的研究方法,进而我们建立了理论模型。然后,收集了相关的数据,利用EVIEWS软件对计量模型进行了参数估计和检验,并加以修正。最后,我们对所得的分析结果和影响消费的一些因素作了经济意义的分析,并相应提出一些政策建议。并找到影响居民消费的主要因素。 关键词:居民消费;城镇居民;回归;Eviews

目录 摘要.................................................................. II 前言. (1) 1 问题的提出 (2) 2 经济理论陈述 (3) 2.1西方经济学中有关理论假说 (3) 2.2有关消费结构对居民消费影响的理论 (4) 3 相关数据收集 (6) 4 计量经济模型的建立 (9) 5 模型的求解和检验 (10) 5.1计量经济的检验 (10) 5.1.1模型的回归分析 (10) 5.1.2拟合优度检验: (11) 5.1.3 F检验 (11) 5.1.4 T检验 (12) 5.2 计量修正模型检验: (12) 5.2.1 Y与的一元回归 (13) 5.2.2拟合优度的检验 (13) 5.2.3 F检验 (14) 5.2.4 T检验: (15) 5.3经济意义的分析: (15) 6 政策建议 (16) 结论 (17) 参考文献 (19)

计量经济学多元线性回归模型

多元线性回归模型 一.概述 当今农村农民人均纯收入与多个因素存在着紧密的联系,例如人均工资收入,人均农林牧渔产值人均生产费用支出,人均转移性和财产性收入等。本次将以安徽1995-2009年农村居民纯收入与人均工资收入,人均生产费用支出,人均转移性和财产性收入等因素的数据,通过建立计量经济模型来分析上述变量之间的关系,强调农村居民生活的重要性,从而促进全国经济的发展。 二、模型构建过程 ⒈变量的定义 被解释变量:农民人均纯收入y 解释变量:人均工资收入x1, 人均农林牧渔产值x2 人均生产费用支出x3 人均转移性和财产性收入x4。 建立计量经济模型:解释农民人均纯收入与人均工资收入,人均生产费用支出,人均转移性和财产性收入的关系 ⒉模型的数学形式 设定农民人均纯收入与五个解释变量相关关系模型,样本回归模型为: ∧Y i=∧ β + ∧ β 1 X i1+∧β 2 X i2+∧β 3 X i3+∧β 4 X i4+e i ⒊数据的收集 该模型的构建过程中共有四个变量,分别是中国从1995-2009年人均工资收入,人均农林牧渔产值人均生产费用支出,人均转移性和财产性收入,因此为时间序列数据,最后一个即2009年的数据作为预测对比数据,收集的数据如下所示: ⒋用OLS法估计模型 回归结果,散点图分别如下:

Y?=33.632+0.659X1+0.59X2-0.274X3+0.152X4 i d.f.=10 ,R2=0.997116 , Se=(186.261) (0.1815 (0.1245) (0.2037) (0.5699) t=(0.1805) (3.632) (4.741) (-1.347) (2.674) 三、模型的检验及结果的解释、评价

SPSS线性回归分析案例

回归分析 实验内容:基于居民消费性支出与居民可支配收入的简单线性回归分析 【研究目的】 居民消费在社会经济的持续发展中有着重要的作用。影响各地区居民消费支出的因素很多,例如居民的收入水平、商品价格水平、收入分配状况、消费者偏好、家庭财产状况、消费信贷状况、消费者年龄构成、社会保障制度、风俗习惯等等。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的经济模型去研究。 【模型设定】 : 我们研究的对象是各地区居民消费的差异。由于各地区的城市与农村人口比例及经济结构有较大差异,现选用城镇居民消费进行比较。模型中被解释变量Y选定为“城市居民每人每年的平均消费支出”。从理论和经验分析,影响居民消费水平的最主要因素是居民的可支配收入,故可以选用“城市居民每人每年可支配收入”作为解释变量X,选取2010年截面数据。 1、实验数据 表1: —

2010年中国各地区城市居民人均年消费支出和可支配收入

| 数据来源:《中国统计年鉴》2010年 2、实验过程 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图1:

表2 模型汇总b — 模型 R R方调整R方标准估计的误差 - 1 .965a.932.930 ~ a.预测变量:(常量),可支配收入X(元)。 b.因变量:消费性支出Y(元) 表3 相关性 、 消费性支出Y (元) 可支配收入X(元) Pearson相关 性消费性支出Y(元)& .965 ! 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立如下线性模型:Y=a+bX

现代计量经济学模型体系解析

#学术探讨# 现代计量经济学模型体系解析* 李子奈刘亚清 内容提要:本文对现代计量经济学模型体系进行了系统的解析,指出了现代计量经济学的各个分支是以问题为导向,在经典计量经济学模型理论的基础上,发展成为相对独立的模型理论体系,包括基于研究对象和数据特征而发展的微观计量经济学、基于充分利用数据信息而发展的面板数据计量经济学、基于计量经济学模型的数学基础而发展的现代时间序列计量经济学、基于非设定的模型结构而发展的非参数计量经济学,并对每个分支进行了扼要的描述。最后在/交叉与综合0的方向上提出了现代计量经济学模型理论的研究前沿领域。 关键词:经典计量经济学时间序列计量经济学微观计量经济学 一、引言 计量经济学自20世纪20年代末30年代初诞生以来,已经形成了十分丰富的内容体系。一般认为,可以以20世纪70年代为界将计量经济学分为经典计量经济学(Classical Econometrics)和现代计量经济学(Mo dern Eco no metr ics),而现代计量经济学又可以分为四个分支:时间序列计量经济学(Tim e Ser ies Econo metrics)、微观计量经济学(M-i cro-econometrics)、非参数计量经济学(Nonpara-m etric Econometrics)以及面板数据计量经济学(Panel Data Eco nom etrics)。这些分支作为独立的课程已经被列入经济学研究生的课程表,独立的教科书也已陆续出版,应用研究已十分广泛,标志着它们作为计量经济学的分支学科已经成熟。 据此提出三个问题:一是经典计量经济学的地位问题。既然现代计量经济学模型体系已经成熟,而且它们都是在经典模型理论的基础上发展的,那么经典模型还有应用价值吗?是不是凡是采用经典模型的研究都是低水平和落后的?二是现代计量经济学的各个分支的发展导向问题。即它们是如何发展起来的?三是现代计量经济学进一步创新和发展的基点在哪里?回答这些问题,对于正确理解计量经济学的学科体系,对于计量经济学的课程设计和教学内容安排,对于正确评价计量经济学理论和应用研究的水平,对于进一步推动中国的计量经济学理论研究,都是十分有益的。 现代计量经济学的各个分支是以问题为导向,以经典计量经济学模型理论为基础而发展起来的。所谓/问题0,包括研究对象和表征研究对象状态和变化的数据。研究对象不同,表征研究对象状态和变化的数据具有不同的特征,用以进行经验实证研究的计量经济学模型既然不同,已有的模型理论方法不适用了,就需要发展新的模型理论方法。按照这个思路,就可以用图1简单地描述经典计量经济学模型与现代计量经济学模型各个分支之间的关系。 本文试图从方法论的角度对现代计量经济学模型的发展,特别是现代计量经济学模型与经典计量经济学模型之间的关系进行较为系统的讨论,以期对未来我国计量经济学的发展研究提供借鉴和启示。本文的内容安排如下:首先分析经典计量经济学模型的基础地位,明确它在现代的应用价值,同时对发生于20世纪70年代的/卢卡斯批判0的实质进行讨论;然后依次讨论时间序列计量经济学、微观计量经济学、非参数计量经济学以及面板数据计量经济学的发展,回答它们是以什么问题为导向,以什么为目的而发展的;最后以/现代计量经济学模型体系的分解与综合0为题,讨论现代计量经济学的前沿研究领域以及从对我国计量经济学理论的创新和发展 ) 22 ) *本文受国家社会科学基金重点项目(08AJY001,计量经济学模型方法论基础研究)的资助。

一元线性回归分析法

一元线性回归分析法 一元线性回归分析法是根据过去若干时期的产量和成本资料,利用最小二乘法“偏差平方和最小”的原理确定回归直线方程,从而推算出a(截距)和b(斜率),再通过y =a+bx 这个数学模型来预测计划产量下的产品总成本及单位成本的方法。 方程y =a+bx 中,参数a 与b 的计算如下: y b x a y bx n -==-∑∑ 222 n xy x y xy x y b n x (x)x x x --==--∑∑∑∑∑∑∑∑∑ 上式中,x 与y 分别是i x 与i y 的算术平均值,即 x =n x ∑ y =n y ∑ 为了保证预测模型的可靠性,必须对所建立的模型进行统计检验,以检查自变量与因变量之间线性关系的强弱程度。检验是通过计算方程的相关系数r 进行的。计算公式为: 22xy-x y r= (x x x)(y y y) --∑∑∑∑∑∑ 当r 的绝对值越接近于1时,表明自变量与因变量之间的线性关系越强,所建立的预测模型越可靠;当r =l 时,说明自变量与因变量成正相关,二者之间存在正比例关系;当r =—1时,说明白变量与因变量成负相关,二者之间存在反比例关系。反之,如果r 的绝对值越接近于0,情况刚好相反。 [例]以表1中的数据为例来具体说明一元线性回归分析法的运用。 表1: 根据表1计算出有关数据,如表2所示: 表2:

将表2中的有关数据代入公式计算可得: 1256750x == (件) 2256 1350y ==(元) 1750 9500613507501705006b 2=-??-?=(元/件) 100675011350a =?-=(元/件) 所建立的预测模型为: y =100+X 相关系数为: 9.011638 10500])1350(3059006[])750(955006[1350 750-1705006r 22==-??-???= 计算表明,相关系数r 接近于l ,说明产量与成本有较显著的线性关系,所建立的回归预测方程较为可靠。如果计划期预计产量为200件,则预计产品总成本为: y =100+1×200=300(元)

计量经济学回归模型实验报告

回归模型分析报告 背景意义: 教育是立国之本,强国之基。随着改革开放的进行、经济的快速发展和人们生活水平的逐步提高,“教育”越来越受到人们的重视。一方面,人均国内生产总值的增加与教育经费收入的增加有着某种联系,而人口的增长也必定会对教育经费收入产生影响。本报告将从这两个方面进行分析。 我国1991年~2013年的教育经费收入、人均国内生产总值指数、年末城镇人口数的统计资料如下表所示。试建立教育经费收入Y关于人均国内生产总值指数X1和年末城镇人口数X2的回归模型,并进行回归分析。 年份教育经费收入 Y(亿元) 人均国内生产总值指数 X1(1978年=100) 年末城镇人口数 X2(万人) 199131203 199232175 199333173 199434169 199535174 199637304 199739449 199841608 199943748 200045906 200148064 200250212 200352376 200454283 200556212 200658288 200760633 200862403 200964512 201066978 201169079 201271182 201373111 资料来源:中经网统计数据库。 根据经济理论和对实际情况的分析可以知道,教育经费收入Y依赖于人均国内生产总值指数X1和年末城镇人口数X2的变化,因此我们设定回归模型为 Y Y=Y0+Y1Y1Y+Y2Y2Y+Y Y 应用EViews的最小二乘法程序,输出结果如下表 Y?Y=5058.835+28.7491Y1Y?0.3982Y2Y

R2= Y???2= F= 异方差的检验 1.Goldfeld-Quandt检验 X1和X2的样本观测值均已按照升序排列,去掉中间X1和X2各5个观测值,用第一个子样本回归: Y?Y=?3510.668+5.9096Y1Y+0.0839Y2Y SSE1= 用第二个子样本回归: Y?Y=178636.6+107.5861Y1Y?4.7488Y2Y SSE2=6602898 H0=u t具有同方差, H1=u t具有递增型异方差 构造F统计量。F=SSE2 SSE1=6602898 45633.64 =>(9,9) = 所以拒绝原假设,计量模型的随机误差项存在异方差 2.White检验 因为模型中含有两个解释变量,辅助回归式一般形式如下 Y?Y2=Y0+Y1Y Y1+Y2Y Y2+Y3Y Y12+Y4Y Y22+Y5Y Y1Y Y2+Y Y 辅助回归式估计结果如下 Y?Y2=??40478.23Y Y1+1067.432Y Y2?18.9196Y Y12?0.0202Y Y22 +1.3633Y Y1Y Y2 因为TR2=>Y0.12 (5)= 该回归模型中存在异方差 3.克服异方差 以1/X1做加权最小二乘估计,

相关主题
文本预览
相关文档 最新文档