一元线性回归模型的置信区间与预测
- 格式:doc
- 大小:207.00 KB
- 文档页数:10
第三章 一元线性回归模型一、预备知识(一)相关概念对于一个双变量总体,若由基础理论,变量和变量之间存在因果),(i i x y x y 关系,或的变异可用来解释的变异。
为检验两变量间因果关系是否存在、x y 度量自变量对因变量影响的强弱与显著性以及利用解释变量去预测因变量x y x ,引入一元回归分析这一工具。
y 将给定条件下的均值i x i yi i i x x y E 10)|(ββ+=(3.1)定义为总体回归函数(PopulationRegressionFunction,PRF )。
定义为误差项(errorterm ),记为,即,这样)|(i i i x y E y -i μ)|(i i i i x y E y -=μ,或i i i i x y E y μ+=)|(i i i x y μββ++=10(3.2)(3.2)式称为总体回归模型或者随机总体回归函数。
其中,称为解释变量x (explanatory variable )或自变量(independent variable );称为被解释y 变量(explained variable )或因变量(dependent variable );误差项解释μ了因变量的变动中不能完全被自变量所解释的部分。
误差项的构成包括以下四个部分:(1)未纳入模型变量的影响(2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。
在总体回归模型(3.2)中参数是未知的,是不可观察的,统计计10,ββi μ量分析的目标之一就是估计模型的未知参数。
给定一组随机样本,对(3.1)式进行估计,若的估计量分别记n i y x i i ,,2,1),,( =10,),|(ββi i x y E 为,则定义3.3式为样本回归函数^1^0^,,ββi y ()i i x y ^1^0^ββ+=n i ,,2,1 =(3.3)注意,样本回归函数随着样本的不同而不同,也就是说是随机变量,^1^0,ββ它们的随机性是由于的随机性(同一个可能对应不同的)与的变异共i y i x i y x 同引起的。
【线性回归】线性回归模型中⼏个参数的解释【线性回归】线性回归模型中⼏个参数的解释R ⽅1. 决定系数/拟合优度类似于⼀元线性回归,构造决定系数。
称为y 关于⾃变量的样本复相关系数。
其中,,有SST=SSR+SSE总离差平⽅和记为SST ,回归平⽅和记为SSR ,残差平⽅和为SSE 。
由公式可见,SSR 是由回归⽅程确定的,即是可以⽤⾃变量x 进⾏解释的波动,⽽SSE 为x 之外的未加控制的因素引起的波动。
这样,总离差平⽅和SST 中能够由⽅程解释的部分为SSR ,不能解释的部分为SSE 。
1. 意义意味着回归⽅程中能被解释的误差占总误差的⽐例。
⼀般来说越⼤,拟合效果越好,⼀般认为超过0.8的模型拟合优度⽐较⾼。
需要注意的是当样本量⼩时,很⼤(例如0.9)也不能肯定⾃变量与因变量之间关系就是线性的。
随着⾃变量的增多,必定会越来越接近于1,但这会导致模型的稳定性变差,即模型⽤来预测训练集之外的数据时,预测波动将会⾮常⼤,这个时候就会对作调整,调整R ⽅可以消除⾃变量增加造成的假象。
F 检验0、预备知识(1)假设检验为了判断与检测X 是否具备对Y 的预测能⼒,⼀般可以通过相关系数、图形等⽅法进⾏衡量,但这只是直观的判断⽅法。
通过对回归参数做假设检验可以为我们提供更严格的数量化分析⽅法。
(2)全模型与简化模型我们称之为全模型(full Model,FM )通过对某些回归系数进⾏假设,使其取指定的值,把这些指定的值带⼊全模型中,得到的模型称为简化模型(reduced model,RM )。
常⽤的简化⽅法将在之后介绍。
1、F 检验检验是线性模型的假设检验中最常⽤的⼀种检验,通过值的⼤⼩可以判断提出的假设是否合理,即是否接受简化模型。
1. 为检验我们的假设是否合理,即评估简化模型相对全模型拟合效果是否⼀样好,需要先建⽴对两个模型拟合效果的评价⽅法。
这⾥我们通过计算模型的残差平⽅和()来衡量模型拟合数据时损失的信息量,也表⽰模型的拟合效果。
§2.5 一元线性回归模型的置信区间与预测多元线性回归模型的置信区间问题包括参数估计量的置信区间和被解释变量预测值的置信区间两个方面,在数理统计学中属于区间估计问题。
所谓区间估计是研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围,是一个必须回答的重要问题。
一、参数估计量的置信区间在前面的课程中,我们已经知道,线性回归模型的参数估计量^β是随机变量i y 的函数,即:i i y k ∑=1ˆβ,所以它也是随机变量。
在多次重复抽样中,每次的样本观测值不可能完全相同,所以得到的点估计值也不可能相同。
现在我们用参数估计量的一个点估计值近似代表参数值,那么,二者的接近程度如何?以多大的概率达到该接近程度?这就要构造参数的一个区间,以点估计值为中心的一个区间(称为置信区间),该区间以一定的概率(称为置信水平)包含该参数。
即回答1β以何种置信水平位于()a a +-11ˆ,ˆββ之中,以及如何求得a 。
在变量的显著性检验中已经知道)1(~^^---=k n t s t iii βββ (2.5.1)这就是说,如果给定置信水平α-1,从t 分布表中查得自由度为(n-k-1)的临界值2αt ,那么t 值处在()22,ααt t -的概率是α-1。
表示为即于是得到:在(α-1)的置信水平下i β的置信区间是)(^^2^2^iis t s t i i βαβαββ⨯+⨯-,i=0,1 (2.5.3)在某例子中,如果给定01.0=α,查表得从回归计算中得到01.0,15,21.0ˆ,3.102ˆ1ˆˆ10====ββββS S 根据(2.5.2)计算得到10,ββ的置信区间分别为()48.147,12.57和(0.1799,0.2401)显然,参数1β的置信区间要小。
在实际应用中,我们当然希望置信水平越高越好,置信区间越小越好。
如何才能缩小置信区间?从(2.5.3)式中不难看出:(1)增大样本容量n 。
2017-10-27不少初学者往往混淆均值的置信区间和个体的预测区间(prediction interval),在有的统计软件中,同时给出回归线的置信区间和预测区间,致使有的初学者搞不懂它们有什么区别。
其实二者很容易区分,置信区间是针对因变量均值的区间,而预测区间是针对因变量个体值的区间。
不难理解,针对均值的置信区间肯定要窄一些,而具体想预测某一个体值,那区间肯定要宽,因为误差会很大。
比如,让你预测一个高中班级中学生的平均身高,跟让你预测该班级中具体某一个学生的身高,你觉得哪个误差更大呢?对于一个班级的均值,即使你什么信息都不知道,估计预测的也差不到哪儿去,而让你预测班中的张三同学的身高,那你可能就不知所措了。
(1)均值的置信区间线性回归中,我们假定,对于每一特定的x值,其对应的y值应该是来自一个服从某一均值和标准差的分布。
例如,调查温度与手足口发病率的关系,温度=10℃,假定其对应的手足口发病率是来自一个服从均值为10(1/10万),标准差为4(1/10万)的总体分布。
当我们调查这一数据时,得到的是这一总体分布中的某一随机数值(所以说y是随机变量)。
根据样本数据建立的回归方程,可以估计出当x等于某一数值时,y的估计值(也就是y的总体均值的估计值)。
比如根据方程式:发病率=-0.011+0.995*温度可以估计出,温度=10℃时,对应的手足口发病率的均值估计为9.94(1/10万)。
由于是总体均值的估计,那就必然会有估计的误差(标准误),这一标准误是可以计算出来的(公式略,格式不好调整,感兴趣的等本书出版后看书)。
因此根据标准误、均值估计值,便可以估计置信区间。
这一置信区间反映的是样本估计yi的均值的这一范围有多大的信心包含了总体均值。
如月份温度=10℃时,手足口发病率均值的95%置信区间为(6.64,16.25)。
这说明,对于温度=10℃这样的月份,我们有95%的信心认为,(6.64,16.25)这一区间包含了手足口发病率的总体均值。
点预测和区间预测的方法及步骤
点预测是指预测一个确定的数值,通常是未来某个时间点的数值。
点预测的方法包括但不限于,简单移动平均法、指数平滑法、
线性回归、时间序列分析、神经网络等。
步骤一般包括数据收集、
数据清洗、建立模型、模型评估和预测结果的解释。
以线性回归为例,首先需要收集相关数据,然后对数据进行清洗和处理,接着建
立线性回归模型,评估模型的拟合效果,最后进行预测并解释预测
结果。
区间预测是指预测未来数值或事件的范围,而不是一个确定的
数值。
区间预测的方法包括但不限于,置信区间法、预测区间法、
蒙特卡洛模拟等。
步骤包括数据收集、建立模型、计算置信区间或
预测区间。
以置信区间法为例,首先需要建立一个适当的统计模型,然后利用该模型计算出未来数值的置信区间,最后进行解释和应用。
需要注意的是,无论是点预测还是区间预测,都需要对数据进
行充分的分析和建模,选择合适的预测方法,并对预测结果进行合
理的解释和应用。
另外,预测的准确性也需要通过一定的评估方法
来验证。
在实际应用中,选择合适的预测方法和步骤取决于具体的
预测对象和数据特点。
希望这些信息能够帮助你更好地理解点预测和区间预测的方法及步骤。
§2.5 一元线性回归模型的置信区间与预测多元线性回归模型的置信区间问题包括参数估计量的置信区间和被解释变量预测值的置信区间两个方面,在数理统计学中属于区间估计问题。
所谓区间估计是研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围,是一个必须回答的重要问题。
一、参数估计量的置信区间在前面的课程中,我们已经知道,线性回归模型的参数估计量^β是随机变量i y 的函数,即:i i y k ∑=1ˆβ,所以它也是随机变量。
在多次重复抽样中,每次的样本观测值不可能完全相同,所以得到的点估计值也不可能相同。
现在我们用参数估计量的一个点估计值近似代表参数值,那么,二者的接近程度如何?以多大的概率达到该接近程度?这就要构造参数的一个区间,以点估计值为中心的一个区间(称为置信区间),该区间以一定的概率(称为置信水平)包含该参数。
即回答1β以何种置信水平位于()a a +-11ˆ,ˆββ之中,以及如何求得a 。
在变量的显著性检验中已经知道)1(~^^---=k n t s t iii βββ (2.5.1)这就是说,如果给定置信水平α-1,从t 分布表中查得自由度为(n-k-1)的临界值2αt ,那么t 值处在()22,ααt t -的概率是α-1。
表示为ααα-=<<-1)(22t t t P即αββαβα-=<-<-1)(2^2^t s t P iiiαββββαβα-=⨯+<<⨯-1)(^^2^2^iis t s t P i i i于是得到:在(α-1)的置信水平下i β的置信区间是)(^^2^2^iis t s t i i βαβαββ⨯+⨯-,i=0,1 (2.5.3)在某例子中,如果给定01.0=α,查表得012.3)13()1(005.02==--t k n t α 从回归计算中得到01.0,15,21.0ˆ,3.102ˆ1ˆˆ10====ββββS S 根据(2.5.2)计算得到10,ββ的置信区间分别为()48.147,12.57和(0.1799,0.2401) 显然,参数1β的置信区间要小。
山西大学实验报告实验报告题目:计量经济学实验报告学院:专业:课程名称:计量经济学学号:学生姓名:教师名称:崔海燕上课时间:一、实验目的:掌握一元线性回归模型的参数估计方法以及对模型的检验和预测的方法。
二、实验原理:1、运用普通最小二乘法进行参数估计;2、对模型进行拟合优度的检验;3、对变量进行显著性检验;4、通过模型对数据进行预测。
三、实验步骤:(一)建立模型1、新建工作文件并保存打开Eviews软件,在主菜单栏点击File\new\workfile,输入start date 1978和end date 2006并点击确认,点击save键,输入文件名进行保存。
2输入并编辑数据在主菜单栏点击Quick键,选择empty\group新建空数据栏,先输入被解释变量名称y,表示中国居民总量消费,后输入解释变量x,表示可支配收入,最后对应各年分别输入数据。
点击name键进行命名,选择默认名称Group01,保存文件。
得到中国居民总量消费支出与收入资料:年份X Y19786678.83806.719797551.64273.219807944.24605.5198184385063.919829235.25482.4198310074.65983.21984115656745.7198511601.77729.2198613036.58210.9198714627.788401988157949560.5198915035.59085.5199016525.99450.9199118939.610375.8199222056.511815.3199325897.313004.7199428783.413944.2199531175.415467.9199633853.717092.5199735956.218080.6199838140.919364.119994027720989.3200042964.622863.92001 46385.4 24370.1 2002 51274 26243.2 2003 57408.1 28035 2004 64623.1 30306.2 2005 74580.4 33214.4 2006 85623.1 36811.2注:y 表示中国居民总量消费 x 表示可支配收入3、 画散点图,判断被解释变量与解释变量之间是否为线性关系在主菜单栏点击Quick\graph 出现对话框,输入 “x y ”,点击确定。
§4.2 一元线性回归模型及其假设条件1.理论模型y=a+bx+εX 是解释变量,又称为自变量,它是确定性变量,是可以控制的。
是已知的。
Y 是被解释变量,又称因变量,它是一个随机性变量。
是已知的。
A,b 是待定的参数。
是未知的。
2.实际中应用的模型x b a yˆˆˆ+= ,bˆ,x 是已知的,y ˆ是未知的。
回归预测方程:x b a y += a ,b 称为回归系数。
若已知自变量x 的值,则通过预测方程可以预测出因变量y 的值,并给出预测值的置信区间。
3.假设条件满足条件:(1)E (ε)=0;(2)D (εi )=σ2;(3)Cov (εi ,εj )=0,i ≠j ; (4) Cov (εi ,εj )=0 。
条件(1)表示平均干扰为0;条件(2)表示随机干扰项等方差;条件(3)表示随机干扰项不存在序列相关;条件(4)表示干扰项与解释变量无关。
在假定条件(4)成立的情况下,随机变量y ~N (a+bx ,σ2)。
一般情况下,ε~N (0,σ2)。
4.需要得到的结果a ˆ,b ˆ,σ2§4.3 模型参数的估计1.估计原理回归系数的精确求估方法有最小二乘法、最大似然法等多种,我们这里介绍最小二乘法。
估计误差或残差:y y e i i i -=,x b a y i +=,e e y y ii i i x b a ++=+= (5.3—1)误差e i 的大小,是衡量a 、b 好坏的重要标志,换句话讲,模型拟合是否成功,就看残差是否达到要求。
可以看出,同一组数据,对于不同的a 、b 有不同的e i ,所以,我们的问题是如何选取a 、b 使所有的e i 都尽可能地小,通常用总误差来衡量。
衡量总误差的准则有:最大绝对误差最小、绝对误差的总和最小、误差的平方和最小等。
我们的准则取:误差的平方和最小。
最小二乘法:令 ()()∑∑---∑======n i ni n i i x b a y y y e i i i i Q 112212 (5.3—2)使Q 达到最小以估计出a 、b的方法称为最小二乘法。
§2.5 一元线性回归模型的置信区间与预测多元线性回归模型的置信区间问题包括参数估计量的置信区间和被解释变量预测值的置信区间两个方面,在数理统计学中属于区间估计问题。
所谓区间估计是研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围,是一个必须回答的重要问题。
一、参数估计量的置信区间在前面的课程中,我们已经知道,线性回归模型的参数估计量^β是随机变量i y 的函数,即:i i y k ∑=1ˆβ,所以它也是随机变量。
在多次重复抽样中,每次的样本观测值不可能完全相同,所以得到的点估计值也不可能相同。
现在我们用参数估计量的一个点估计值近似代表参数值,那么,二者的接近程度如何?以多大的概率达到该接近程度?这就要构造参数的一个区间,以点估计值为中心的一个区间(称为置信区间),该区间以一定的概率(称为置信水平)包含该参数。
即回答1β以何种置信水平位于()a a +-11ˆ,ˆββ之中,以及如何求得a 。
在变量的显著性检验中已经知道)1(~^^---=k n t s t iii βββ (2.5.1)这就是说,如果给定置信水平α-1,从t 分布表中查得自由度为(n-k-1)的临界值2αt ,那么t 值处在()22,ααt t -的概率是α-1。
表示为ααα-=<<-1)(22t t t P即αββαβα-=<-<-1)(2^2^t s t P iiiαββββαβα-=⨯+<<⨯-1)(^^2^2^iis t s t P i i i于是得到:在(α-1)的置信水平下i β的置信区间是)(^^2^2^iis t s t i i βαβαββ⨯+⨯-,i=0,1 (2.5.3)在某例子中,如果给定01.0=α,查表得012.3)13()1(005.02==--t k n t α从回归计算中得到01.0,15,21.0ˆ,3.102ˆ1ˆˆ10====ββββS S 根据(2.5.2)计算得到10,ββ的置信区间分别为()48.147,12.57和(0.1799,0.2401) 显然,参数1β的置信区间要小。
在实际应用中,我们当然希望置信水平越高越好,置信区间越小越好。
如何才能缩小置信区间?从(2.5.3)式中不难看出:(1)增大样本容量n 。
在同样的置信水平下,n 越大,从t 分布表中查得自由度为(n-k-1)的临界值2αt 越小;同时,增大样本容量,在一般情况下可使估计值的标准差βˆS 减小,因为式中分母的增大是肯定的,分子并不一定增大。
(2)更主要的是提高模型的拟合度,以减小残差平方和∑2i e 。
设想一种极端情况,如果模型完全拟合样本观测值,残差平方和为0,则置信区间也为0。
(3)提高样本观测值的分散度。
在一般情况下,样本观测值越分散,标准差越小。
置信水平与置信区间是矛盾的。
置信水平越高,在其他情况不变时,临界值2αt 越大,置信区间越大。
如果要求缩小置信区间,在其他情况不变时,就必须降低对置信水平的要求。
二、预测值的置信区间1、点预测计量经济学模型的一个重要应用是经济预测。
对于模型i i i u x y ++=10ββ,n i ,,2,1 =如果给定样本以外的解释变量的观测值f x ,有f f f u x y ++=10ββ因f x 是前述样本点以外的解释变量值,所以f u 和()n i u i ,,2,1 =是不相关的。
引用已有的OLS 的估计值,可以得到被解释变量f y 的点预测值:ff x y 10ˆˆˆββ+= (2.5.4)但是,严格地说,这只是被解释变量的预测值的估计值,而不是预测值。
原因在于两方面:一是模型中的参数估计量是不确定的,正如上面所说的;二是随机项的影响。
所以,我们得到的仅是预测值的一个估计值,预测值仅以某一个置信水平处于以该估计值为中心的一个区间中。
于是,又是一个区间估计问题。
2、区间预测如果已经知道实际的预测值f y ,那么预测误差为f f f yy e ˆ-= 显然,f e 是一随机变量,可以证明()()()()()0ˆˆˆ10101010=+-+=+-++=-=f f f f f f f f x x x E u x E y y E e E ββββββββ 而()()()()()()()()f f f u f f f f f f f f f f f f f y y Cov yD y y Cov yy Cov y y Cov y y yy Cov e e Cov e D ˆ,2ˆˆ,ˆˆ,2,ˆ,ˆ,2-+=+-=--==σ因为f yˆ由原样本的OLS 估计值求得,而f y 与原样本不相关,故有: ()0ˆ,=f f y y Cov ,()()f u f yD e D ˆ2+=σ 可以计算出来:()()2121ˆu ni if f x xxx n yD σ⎪⎪⎪⎪⎭⎫ ⎝⎛--+=∑= (2.5.5)()()21211u ni if f x xxx n e D σ⎪⎪⎪⎪⎭⎫⎝⎛--++=∑= (2.5.6) 因f yˆ和f e 均服从正态分布,可利用它们的性质构造统计量,求区间预测值。
利用f yˆ构造统计量为: ()()()1,0~1ˆ212ˆN x x x x n y E y N uni i f f f y f σ⎪⎪⎪⎪⎭⎫ ⎝⎛--+-=∑=将2u σ用估计值2ˆu σ代入上式,有 ()()()2~ˆ1ˆ212ˆ-⎪⎪⎪⎪⎭⎫ ⎝⎛--+-=∑=n t x x x x n y E y t u ni i f f f y f σ这样,可得显著性水平α下()fy E的置信区间为()()⎪⎪⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎪⎭⎫ ⎝⎛--+*+⎪⎪⎪⎪⎭⎫ ⎝⎛--+*-∑∑==21222122ˆ1ˆ ,ˆ1ˆu n i i f f un i i f f x x x x n t y x x x x n t y σσαα (2.5.7) (2.5.7)式称为f y 的均值区间预测。
同理,利用f e 构造统计量,有()()()1,0~11ˆ11212212N x x x x n yy x x x x n e N u n i i f f f u n i i f fe f σσ⎪⎪⎪⎪⎭⎫⎝⎛--++-=⎪⎪⎪⎪⎭⎫ ⎝⎛--++=∑∑==将2u σ用估计值2ˆu σ代入上式,有:()()()2~ˆ11ˆˆ11212212-⎪⎪⎪⎪⎭⎫⎝⎛--++-=⎪⎪⎪⎪⎭⎫⎝⎛--++=∑∑==n t x xxx n yy x x x x n e t u ni if f f u ni i f fe f σσ根据置信区间的原理,得显著性水平α下fy 的置信区间:()()⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎭⎫⎝⎛--++*+⎪⎪⎪⎪⎭⎫⎝⎛--++*-∑∑==21222122ˆ11ˆ ,ˆ11ˆu ni i f f u ni i f f x x x x n t y x x x x n t y σσαα(2.5.8)上式称为f y 的个值区间预测,显然,在同样的α下,个值区间要大于均值区间。
(2.5.7)和(2.5.8)也可表述为:f y 的均值或个值落在置信区间内的概率为α-1,α-1即为预测区间的置信度。
或者说,当给定解释变量值f x 后,只能得到被解释变量f y 或其均值()f y E 以)1(α-的置信水平处于某区间的结论。
经常听到这样的说法,“如果给定解释变量值,根据模型就可以得到被解释变量的预测值为……值”。
这种说法是不科学的,也是计量经济学模型无法达到的。
如果一定要给出一个具体的预测值,那么它的置信水平则为0;如果一定要回答解释变量以100%的置信水平处在什么区间中,那么这个区间是∞。
在实际应用中,我们当然也希望置信水平越高越好,置信区间越小越好,以增加预测的实用意义。
如何才能缩小置信区间?从(2.5.5)和(2.5.6)式中不难看出:(1)增大样本容量n 。
在同样的置信水平下,n 越大,从t 分布表中查得自由度为(n-k-1)的临界值2αt 越小;同时,增大样本容量,在一般情况下可使2ˆ22-=∑n e iu σ减小,因为式中分母的增大是肯定的,分子并不一定增大。
(2)更主要的是提高模型的拟合优度,以减小残差平方和∑2i e 。
设想一种极端情况,如果模型完全拟合样本观测值,残差平方和为0,则置信区间长度也为0,预测区间就是一点。
(3)提高样本观测值的分散度。
在一般情况下,样本观测值越分散,作为分母的()2∑-x x i 的值越大,致使区间缩小。
置信水平与置信区间是矛盾的。
置信水平越高,在其他情况不变时,临界值2αt 越大,置信区间越大。
如果要求缩小置信区间,在其他情况不变时,就必须降低对置信水平的要求。
四、一元线性回归模型参数估计实例为了帮助读者理解一元线性回归模型参数估计的原理,下面以我国国家财政文教科学卫生事业费支出模型为例,不采用计量经济学应用软件,用手工计算,进行模型的参数估计。
经分析得到,我国国家财政中用于文教科学卫生事业费的支出,主要由国家财政收入决定,二者之间具有线性关系。
于是可以建立如下的模型:t t t FI ED μβα++=其中,t ED 为第t 年国家文教科学卫生事业费支出额(亿元),t FI 为第t 年国家财政收入额(亿元),t μ,为随机误差项,βα和为待估计的参数。
选取1991—1997年的数据为样本,利用(2.2.6)和(2.2.7)的计算公式,分别计算参数估计值。
表2.2.1 有关数据表8812=∑ttED38500=∑ttFI1259=ED 5500=FI2368696442=∑ttFI54078207·=∑ttEDFI 5612207.=∑ttFI251196442.=∑tFI由电脑计算的参数估计值为24.0ˆ,65.39ˆ=-=βα全部统计结果如下表。
从表中可看出,判定系数=2R 0.99,表示以国家财政收入额来解释国家文教科学卫生事业费支出额,在1991至1997年间,拟合度相当理想。
截距项α的估计值对应的t-统计量为0.47,不能通过显著性检验,即不能推翻α为0的假设;而一次系数β的估计值对应的t-统计量为20.34,不用查表即可知通过显著性检验,即β显著不为0,因果关系成立。
F-统计量的值为413.58,也表示方程系数显著不为0。
表一:Eviews计算结果Dependent Variable: EDMethod: Least SquaresDate: 09/21/02 Time: 16:22Sample: 1991 1997C 30.05237 63.90691 0.470252 0.6580R-squared 0.988055 Mean dependent var 1258.857 Adjusted R-squared 0.985666 S.D. dependent var 459.8972 S.E. of regression 55.06160 Akaike info criterion 11.08974 Sum squared resid 15158.90 Schwarz criterion 11.07428 Log likelihood -36.81408 F-statistic 413.5768表二:不含截距项的Eviews计算结果:Dependent Variable: EDMethod: Least SquaresDate: 09/21/02 Time: 16:19Sample: 1991 1997FI 0.228304 0.003337 68.40877 0.0000R-squared 0.987526 Mean dependent var 1258.857 Adjusted R-squared 0.987526 S.D. dependent var 459.8972 S.E. of regression 51.36364 Akaike info criterion 10.84730 Sum squared resid 15829.34 Schwarz criterion 10.83957Dependent Variable: LEDMethod: Least SquaresDate: 09/21/02 Time: 16:21Sample: 1991 1997Included observations: 7C -1.522329 0.383141 -3.973290 0.0106LFI 1.005563 0.044764 22.46341 0.0000 R-squared 0.990188 Mean dependent var 7.077084 Adjusted R-squared 0.988226 S.D. dependent var 0.382958 S.E. of regression 0.041554 Akaike info criterion -3.288701 Sum squared resid 0.008634 Schwarz criterion -3.304156 Log likelihood 13.51045 F-statistic 504.6048 Durbin-Watson stat 1.930000 Prob(F-statistic) 0.000003多元线性回归模型的参数估计实例例2.3.1 建立中国消费模型。