计量经济学作用-虚拟变量回归
- 格式:doc
- 大小:155.50 KB
- 文档页数:3
1、完全共线性:对于多元线性回归模型,其基本假设之一是解释变量1x ,2x ,…,k x 是相互独立的,如果存在02211=+++ki k i i x c x c x c ,i=1,2,…,n ,其中c 不全为0,即某一个解释变量可以用其他解释变量的线性组合表示,则称为完全共线性。
2、虚假序列相关:由于随机干扰项的序列相关往往是在模型设定中遗漏了重要的解释变量或对模型的函数形式设定有误时而导致的序列相关。
3、残差项:是指对每个样本点,样本观测值与模型估计值之间的差值。
4、多重共线性:在经典回归模型中总是假设解释变量之间是相互独立的。
如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。
5、无偏性:是指参数估计量的均值(期望)等于模型的参数值。
6、工具变量:是在模型估计过程中被作为工具使用,以替代模型中与随机误差项相关的随机解释变量的变量。
7、结构分析:经济学中所说的结构分析是指对经济现象中变量之间关系的研究。
8、虚假回归(伪回归):如果两列时间序列数据表现出一致的变化趋势(非平稳),即它们之间没有任何经济关系,但进行回归也会表现出较高的可决系数。
9、异方差性:即相对于不同的样本点,也就是相对于不同的解释变量观测值,随机干扰项具有不同的方差。
10、计量经济学:它是经济学的一个分支学科,以揭示经济活动中客观存在的数量关系为内容的分支学科。
11、计量经济学模型:揭示经济活动中各种因素之间的定量关系,用随机性的数学方程加以描述。
12、截面数据:是一批发生在同一时间截面上的数据。
13、回归分析:是研究一个变量关于另一个(些)变量的依赖关系的计算方法和理论,其目的在于通过后者的已知和设定值,去估计和(或)预测前者的(总体)均值。
14、随机误差项:观察值围绕它的期望值的离差就是随机误差项。
15、最佳线性无偏估计量(高斯-马尔可夫定理):普通最小二乘估计量具有线性性、无偏性和有效性等优良性质,是最佳线性无偏估计量,这就是著名的高斯-马尔可夫定理。
第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi有奖学金1 来自城市无奖学金0 来自农村来自发达地区 1 男性0 来自欠发达地区0 女性Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i |= X i , D 1i =D 3i =1,D 2i =D 4i =0)=(β0+α1+α3)+β1X i (4) 来自发达地区的城市男生,未得到奖学金时的月消费支出: E(Y i |= X i ,D 2i =D 3i =D 4i =1, D 1i =0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
第9章虚拟变量回归模型9.1 复习笔记考点一:ANOVA模型★★★1.虚拟变量含义虚拟变量是指仅有0和1两个取值的变量,是一种定性变量。
一般而言,虚拟变量等于0表示变量不具有某种性质,等于1表示具有某种性质。
虚拟变量也可以放到回归模型中。
这种模型被称为方差分析(ANOVA)模型。
2.虚拟变量模型(1)虚拟变量的表达式Y i=β1+β2D2i+β3D3i+u i应看到,除了不是定量回归元而是定性或虚拟回归元(若观测值属于某特定组则取值为1,若它不属于那一组则取值0)之外,方程与前面考虑的任何一个多元回归模型都是一样的。
所有的虚拟变量都用字母D表示。
(2)使用虚拟变量的注意事项①若定性变量有m个类别,则只需引入m-1个虚拟变量,否则就会陷入虚拟变量陷阱,即完全共线性或完全多重共线性(若变量之间存在不止一个精确的关系)情形。
对每个定性变量而言,所引入的虚拟变量的个数必须比该变量的类别数少一个。
②不指定其虚拟变量的那一组被称为基组、基准组、控制组、比较组、参照组或省略组。
所有其他的组都与基准组进行比较。
③截距值(β1)代表了基准组的均值。
④附属于方程中虚拟变量的系数被称为级差截距系数,它反映取值为1的地区的截距值与基准组的截距系数之间的差别。
⑤如果定性变量不止一类,那么,基准组的选择完全取决于研究者。
⑥对于虚拟变量陷阱,如果在这种模型中不使用截距项,那么引入与变量的类别相同数量的虚拟变量就能够回避虚拟变量陷阱的问题。
因此,如果从方程中去掉截距项,并考虑如下模型Y i=β1D1i+β2D2i+β3D3i+u i由于此时没有完全共线性,所以就不会陷入虚拟变量陷阱。
但要确定做这个回归时,一定要使用回归软件包中的无截距选项。
⑦在一个含有截距的方程中,能更容易地处理是否有某个组与基准组有所不同以及有多大的不同,所以在方程中包括截距更方便。
为了检查分组是否得当,也可通过将虚拟变量的系数相对0做t检验(或者更一般地,对适当的虚拟变量系数集做一个F检验),就可以检验分类是否适当。
虚拟变量回归
实验目的:分析1965~1970年美国制造业利润和销售额,季度的关系。
实验要求:假定利润不仅与销售额有关,而且和季度因素有关
(1) 如果认为季度影响使利润平均值发生变异,应如何引入虚拟变量?
(2) 如果认为季度影响使利润对销售额的变化率发生变异,应如何引入虚拟变
量?
(3) 如果认为上诉两种情况都存在,又当如何引入虚拟变量?
(4) 对上述三种情况分别估计利润模型,进行对比分析。
实验原理:最小二乘法原理
实验步骤:
由于有四个季度,因此引入三个季度虚拟变量: 其它一季度⎩⎨⎧=012D 其它二季度⎩⎨⎧=013D 其它三季度⎩
⎨⎧=014D 一、如果认为季度影响使利润平均值发生变异,应以加法类型引入三个虚拟变量,设其模型为:u X D D D Y t
t t +++++=βαααα4433221 对模型进行回归,得到以下回归结果:
Dependent Variable: Y
Method: Least Squares
Date: 11/26/10 Time: 15:02
Sample: 1965Q1 1970Q4
Included observations: 24 Variable Coefficien
t Std. Error t-Statistic Prob. C 6910.449 1922.350 3.594792 0.0019
X 0.038008 0.011670 3.256914 0.0041
D2 -187.7317 660.1218 -0.284390 0.7792
D3 1169.320 637.0766 1.835446 0.0821
D4 -417.1182 640.8333 -0.650900 0.5229 R-squared 0.517642 Mean dependent var 12838.54
Adjusted R-squared 0.416093 S.D. dependent var 1433.284
S.E. of regression 1095.227 Akaike info criterion 17.01836
Sum squared resid 22790932 Schwarz criterion 17.26379
Log likelihood -199.2204 F-statistic 5.097454
Durbin-Watson stat 0.396350 Prob(F-statistic) 0.005810 Y t ^=6910.449-187.7317D 2+1169.320D 3-417.1182D 4+0.038008X t
Se=(1922.350) (660.1218) (637.0766) (640.8333) (0.011670)
t=(3.594792) (-0.284390) (1.835446) (-0.650900) (3.256914) R 2=0.517642 R -2
=0.416093 F=5.097454 DW=0.396350
二、如果认为季度影响使利润对销售额的变化率发生变化,应以乘法类型引入三个虚拟变量,设其模型为:Y t =u D X D X D X X t t t t t +++++43322110αααββ 对上述模型进行回归,得到以下结果:
Dependent Variable: Y
Method: Least Squares
Date: 11/26/10 Time: 17:53
Sample: 1965Q1 1970Q4
Included observations: 24
Variable Coefficien
t Std. Error t-Statistic
Prob. C 7014.757 1782.932 3.934394
0.0009 X 0.037068 0.011322 3.273896
0.0040 X*D2 -0.000933 0.004302 -0.216776
0.8307 X*D3 0.007910 0.004018 1.968541
0.0638 X*D4 -0.002385 0.004074 -0.585290
0.5652 R-squared 0.519733 Mean dependent var
12838.54 Adjusted R-squared 0.418624 S.D. dependent var
1433.284 S.E. of regression 1092.851 Akaike info criterion
17.01402 Sum squared resid 22692129 Schwarz criterion
17.25945 Log likelihood -199.1682 F-statistic
5.140331 Durbin-Watson stat 0.429628 Prob(F-statistic)
0.005594
=Y t ^
7014.757+0.037068X t -0.000933D X t 2+0.007910D X t 3-0.002385D X t 4 se=(1782.932)(0.011322)(0.004302) (0.004018) (0.004074) t=(3.934394)(3.273896)(-0.216776) (1.968541) (-0.585290)
R 2=0.519733 R -2=0.418624 F=5.140331 DW=0.429628
三、若上述两种情况都存在,应以加法和乘法相结合的方式引入三个虚拟变量,设模型为: u D X D X D X X D D D Y t t t t t t ++++++++=44332214433221ββββαααα
对上述回归模型进行回归得到以下回归结果:
Dependent Variable: Y
Method: Least Squares
Date: 11/26/10 Time: 17:54
Sample: 1965Q1 1970Q4
Included observations: 24 Variable Coefficien
t Std. Error t-Statistic Prob. C 10457.39 4075.199 2.566105 0.0207
X 0.015868 0.025265 0.628075 0.5388
D2 -4752.257 5441.682 -0.873307 0.3954
D3 -3764.208 5484.872 -0.686289 0.5024
D4 -4635.464 5570.057 -0.832211 0.4175
X*D2 0.029207 0.035426 0.824467 0.4218
X*D3 0.031169 0.034647 0.899626 0.3817
X*D4 0.026577 0.035475 0.749176 0.4646 R-squared 0.546701 Mean dependent var 12838.54
Adjusted R-squared 0.348383 S.D. dependent var 1433.284
S.E. of regression 1156.987 Akaike info criterion 17.20623
Sum squared resid 21417911 Schwarz criterion 17.59891
Log likelihood -198.4747 F-statistic 2.756686
Durbin-Watson stat 0.464982 Prob(F-statistic) 0.044081 Y t ^=10457.39-4752.257D 2-3764.208D 3-4635.464D 4+0.015868X
t Se=(4075.199)(5441.682)(5484.872)(5570.057)(0.025265)
t=(2.566105)(-0.873307)(-0.686289)(-0.832211)(0.628075)
+0.029207D X t 2+0.031169D X t 3+0.026577D X t 4
se=(0.035426) (0.034647)
(0.035475) t=(0.824467) (0.899626)
(0.749176) R
2=0.546701 R 2=0.348383
F=2.756686 DW=0.464982 四、通过对三个模型进行对比分析可看出,第三个模型的参数估计值均不显著,模型一和二的销售额的参数估计显著,其余参数估计也不显著。
方程都显著,但拟合程度都不是很好。