方差检验和拟合优度检验
- 格式:ppt
- 大小:212.50 KB
- 文档页数:35
第一章:绪论1.计量经济学的学科属性、计量经济学与经济学、数学、统计学的关系;2.计量经济研究的四个基本步骤(1)建立模型(依据经济理论建立模型,通过模型识别、格兰杰因果关系检验、协整关系检验建立模型);(2)估计模型参数(满足基本假设采用最小二乘法,否则采用其他方法:加权最小二乘估计、模型变换、广义差分法等);(3 )模型检验:经济意义检验(普通模型、双对数模型、半对数模型中的经济意义解释,见例1、例2 ),统计检验(T检验,拟合优度检验、F检验,联合检验等);计量经济学检验(异方差、自相关、多重共线性、在时间序列模型中残差的白噪声检验等);(4 )模型应用。
例1:在模型中,y某类商品的消费支出,x收入,P商品价格,试对模型进行经济意义检验,并解释A"》的经济学含义。
In X = 0.213 +0.25 In 一0.31£其中参数卩'",都可以通过显著性检验。
经济意义检验可以通过(商品需求与收入正相关、与商品价格负相关\商品消费支出关于收入的弹性为0.25 ( 1心/畑)=0.251】心/仏));价格增加一个单位,商品消费需求将减少31%。
例2 :硏究金融发展与贫富差距的关系,认为金融发展先使贫富差距加大(恶化), 尔后会使贫富差距降<氐(好转),成为倒U型。
贫富差距用GINI系数表示,金融发展用(贷款余额/存款总额)表示。
回归结果G/^VZ r =2.34 + 0.641;-1.29x;/模型参数都可以通过显著性检验。
在X的有意义的变化范围内,GINI系数的值总是大于1 ,细致分析后模型变的毫无意义;同样的模型还有:GINI系数的值总是为负= —13.34 + 7.12 兀一14.31#O3.计量经济学中的一些基本概念数据的三种类型:横截面数据、时间序列数据、面板数据;线性模型的概念;模型的解释变量与被解释变量,被解释变量为随机变量(如果—个变量为随机变量,并与随机扰动项相关,这个变量称为内生变量),被解释变量为内生变量,有些解释变量也为内生变量。
所有计量经济学检验方法(全)计量经济学所有检验方法一、拟合优度检验 可决系数TSSRSSTSS ESS R -==12 TSS 为总离差平方和,ESS为回归平方和,RSS 为残差平方和该统计量用来测量样本回归线对样本观测值的拟合优度。
该统计量越接近于1,模型的拟合优度越高。
调整的可决系数)1/()1/(12----=n TSS k n RSS R 其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。
将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。
二、方程的显著性检验(F 检验)方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。
原假设与备择假设:H 0:β1=β2=β3=…βk =0 H 1:βj 不全为0 统计量)1/(/--=k n RSS kESS F 服从自由度为(k , n-k-1)的F分布,给定显著性水平α,可得到临界值Fα(k,n-k-1),由样本求出统计量F的数值,通过F>Fα(k,n-k-1)或F≤Fα(k,n-k-1)来拒绝或接受原假设H,以判定原方程总体上的线性关系是否显著成立。
三、变量的显著性检验(t检验)对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。
原假设与备择假设:H0:βi=0 (i=1,2…k);H1:βi≠0给定显著性水平α,可得到临界值tα/2(n-k-1),由样本求出统计量t的数值,通过|t|> tα/2(n-k-1) 或|t|≤tα/2(n-k-1)来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。
四、参数的置信区间参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。
统计量)1(~1ˆˆˆ----'--=k n t k n c S t iiii iiie e βββββ在(1-α)的置信水平下βi 的置信区间是( , ) ββααββi i t s t s ii-⨯+⨯22,其中,t α/2为显著性水平为α、自由度为n-k-1的临界值。
1:普通最小二乘法为使被解释变量的估计值与观测值在总体上最为接近使Q= 最小,从而求出参数估计量的方法,即之。
2:总平方和、回归平方和、残差平方和的定义TSS度量Y自身的差异程度,称为总平方和。
TSS除以自由度n-1=因变量的方差,度量因变量自身的变化。
RSS度量因变量Y的拟合值自身的差异程度,称为回归平方和。
RSS除以自由度(自变量个数-1)=回归方差,度量由自变量的变化引起的因变量变化部分。
ESS度量实际值与拟合值之间的差异程度,称为残差平方和。
RSS 除以自由度(n-自变量个数-1)=残差(误差)方差,度量由非自变量的变化引起的因变量变化部分。
3:计量经济学计量经济学是以经济理论为指导,以事实为依据,以数学和统计学为方法,以电脑技术为工具,从事经济关系与经济活动数量规律的研究,并以建立和应用经济计量模型为核心的一门经济学科。
而且必须指出,这些经济计量模型是具有随机性特征的。
4:最小样本容量即从最小二乘原理和最大似然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。
即样本容量必须不少于模型中解释变量的数目(包扩常数项),即之。
5:序列相关性。
模型的随机误差项违背了相互独立的基本假设的情况,称之。
1、截面数据:截面数据是许多不同的观察对象在同一时间点上的取值的统计数据集合,可理解为对一个随机变量重复抽样获得的数据。
2、时间序列数据:时间序列数据是同一观察对象在不同时间点上的取值的统计序列,可理解为随时间变化而生成的数据。
3、虚变量数据:虚拟变量数据是人为设定的虚拟变量的取值。
是表征政策、条件等影响研究对象的定性因素的人工变量,其取值一般只取“0”或“1”。
1、总体回归函数:是指在给定X i下Y分布的总体均值与X i所形成的函数关系(或者说将总体被解释变量的条件期望表示为解释变量的某种函数)2、最大似然估计法(ML): 又叫最大或然法,指用产生该样本概率最大的原则去确定样本回归函数的方法。
Arma模型是一种广泛应用于时间序列分析和预测的统计模型,它由自回归部分(AR)和移动平均部分(MA)组成。
在ARMA模型中,平稳时间序列可以表示为自回归部分的线性组合加上移动平均部分的线性组合。
对于ARMA模型的均值和方差的计算,有以下公式:1. ARMA模型的均值计算:ARMA(p,q)模型的均值为0,其中p和q分别代表自回归部分和移动平均部分的阶数。
2. ARMA模型的方差计算:ARMA(p,q)模型的方差由自回归部分的系数、移动平均部分的系数和误差项的方差共同决定。
假设ARMA(p,q)模型的自回归部分的系数为φ1,φ2,…,φp,移动平均部分的系数为θ1,θ2,…,θq,误差项的方差为σ^2,则ARMA模型的方差可以由以下公式计算得出:Var(Xt) = σ^2 * (1 + φ1^2 + φ2^2 + … + φp^2 + θ1^2 + θ2^2 + … + θq^2)其中,Var(Xt)代表时间序列Xt的方差。
3. ARMA模型的参数估计:在实际应用中,通常需要通过样本数据估计ARMA模型的参数。
常用的方法包括最大似然估计、最小二乘估计等。
通过参数估计得到ARMA模型的参数后,可以根据上述公式计算出模型的均值和方差。
ARMA模型的均值和方差是对时间序列特征的重要描述,对于理解时间序列数据的特性和进行预测具有重要意义。
对ARMA模型的均值和方差的计算公式有一定的了解,对于进行时间序列分析和预测具有一定的帮助。
ARMA模型的均值和方差计算公式是时间序列分析中的重要内容,对于了解时间序列数据的特性和进行预测具有重要意义。
在实际的时间序列分析和建模过程中,除了对ARMA模型的均值和方差进行计算外,还需要对ARMA模型的参数进行估计,并且需要考虑模型的拟合优度和预测效果,下文将进一步探讨ARMA模型的参数估计、拟合优度检验和预测应用。
4. ARMA模型参数估计方法在实际应用中,常用的ARMA模型参数估计方法包括最大似然估计、最小二乘估计等。
§2.4 一元线性回归的模型检验一、经济意义检验。
二、在一元回归模型的统计检验主要包括如下几种检验1、拟合优度检验(R2检验;2、自变量显著性检验(t检验;3、残差标准差检验(SE检验。
•主要检验模型参数的符号、大小和变量之间的相关关系是否与经济理论和实际经验相符合。
一、经济意义检验i•二、统计检验•回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。
•尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
1、拟合优度检验拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。
度量拟合优度的指标:判定系数(可决系数R2(1、总离差平方和的分解已知由一组样本观测值(X i ,Y i ,通过估计得到如下样本回归直线ii X Y 10ˆˆˆββ+=i i i i i i i y e Y Y Y Y Y Y y ˆˆ(ˆ(+=-+-=-=总离差平方和的分解ii X Y 10ˆˆˆββ+=ˆ(ˆY Y y i i -=i i i i i i i ye Y Y Y Y Y Y y ˆˆ(ˆ(+=-+-=-=Y 的i 个观测值与样本均值的离差由回归直线解释的部分回归直线不能解释的部分离差分解为两部分之和总离差平方和的分解公式:TSS=RSS+ESS,TSS 总离差平方和,ESS 为回归平方和,RSS 为残差平方和.((((((((0ˆˆˆ,0.0ˆˆ(ˆ(ˆˆ(2ˆˆ: 1022222222ˆˆˆˆˆˆ=+===-=-=--+=+=-+-=-+--+-=-+-=-=∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑ii i i i i ii i i i i i i i i i i i i i i i i i i i i i X e e Y e e e Y Y e Y Y e Y Y ESS RSS y e Y Y Y Y TSS Y Y Y YY Y Y YY Y Y Y Y Y Y Y ββ而因为证明TSS=ESS+RSSY的观测值围绕其均值的总离差(total variation可分解为两部分:一部分来自回归线(ESS,另一部分则来自随机部分(RSS。
计量经济学简答题1.简述计量经济学中的检验包括哪些内容?(1)t 检验:回归模型中变量的显著性检验;(2)F 检验:方程总体线性的显著性检验;受约束的回归检验;多重共线性检验(判定系数检验法和逐步回归法检验法);异方差性检验(G-Q 检验)(3)卡方检验:异方差性的检验(White 检验)、拉格朗日乘数(LM )检验(4)拟合优度检验:检验模型对样本观测值的拟合程度,一元线性回归模型中看可决系数R 2统计量的值,多元回归模型中看调整的R 2统计量的值。
其值越接近1,说明模型的拟合优度较高。
(5)异方差性的检验:图示检验法、White 检验、布罗施-帕甘(B-P )检验(F 统计量或LM统计量)、戈里瑟(Gleiser )检验。
(6)序列相关性的检验:图示法、回归检验法、D.W.检验法、拉格朗日乘数(LM )检验(7)时间序列的平稳性检验:单位根检验(DF 检验、ADF 检验)2.计量经济学研究的对象是什么?计量经济学的研究对象是经济现象,是研究经济现象中的具体数量规律(或者说,计量经学是利用数学方法,根据统计测定的经济数据,对反映经济现象本质的经济数量关系进行研究。
3.应用计量经济学方法,研究客观经济现象的步骤是什么?(1)陈述理论(或假设);(2)建立计量经济模型;(3)收集数据;(4)估计参数;(5)假设检验;(6)预测和政策分析。
4.多元线性回归模型的经典的基本假定有哪些?(1)回归模型是正确设定的;(2)解释变量X 1,X 2...X K 在所抽取的样本中具有变异性,且X j 之间不存在严格线性相关性(无完全多重共线性);(3)随机干扰项具有条件零均值性:()0...|2,1=K i X X X E μ;(4)随机干扰项具有条件同方差及不序列相关性:()221...,|ar σμ=K i X X X V ,()0...,|,21=K j i X X X Cov μμ;(5)随机干扰项满足正态分布:()221,0~...,|σμN X X X K i 。
1. 总体回归函数:在给定解释变量X i 条件下被解释变量Y i 的期望轨迹称为总体回归线,或更一般地称为总体回归曲线。
相应的函数:E(Y 〡X i )=f(X i )称为(双变量)总体回归函数(populationregressionfunction,PRF )2. 样本回归函数:样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。
该线称为样本回归线。
记样本回归线的函数形式为:i i i X X f Y 10ˆˆ)(ˆββ+==称为样本回归函数(sampleregressionfunction ,SRF )。
3. 随机的总体回归函数:函数 〡 或者在线性假设下, 式称为总体回归函数(方程)PRF 的随机设定形式。
表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。
由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。
4. 线性回归模型:假设1、回归模型是正确设定的。
假设2、解释变量X 是确定性变量,不是随机变量,在重复抽样中取固定值。
假设3、解释变量X 在所抽取的样本中具有变异性,而且随着样本容量的无限增加,解释变量X 的样本方差趋于一个非零的有限常数,即假设4、随机误差项具有零均值、同方差和不序列相关性:E(i )=0i=1,2,…,nVar(i )=2i=1,2,…,nCov(i,j )=0i≠ji,j=1,2,…,n假设5、随机误差项与解释变量X 之间不相关:Cov(X i ,i )=0i=1,2,…,n假设6、服从零均值、同方差、零协方差的正态分布i ~N(0,2)i=1,2,…,n以上假设也称为线性回归模型的经典假设,满足该假设的线性回归模型,也称为经典线性回归模型5. 随机误差项( )和残差项( ):(1)i 为观察值Y i 围绕它的期望值E(Y |X i )的离差,是一个不可观测的随机变量,又称为随机干扰项或随机误差项。
Stata拟合优度简介拟合优度(Goodness of Fit)是统计学中用来评估拟合模型与观测数据之间的适配程度的指标。
在Stata中,我们可以使用各种统计方法和工具来计算和评估拟合优度。
本文将介绍Stata中常用的拟合优度指标和计算方法,并提供示例代码和解释。
常用的拟合优度指标在Stata中,常用的拟合优度指标包括以下几种:1.R-squared(R平方):R平方是最常用的拟合优度指标之一。
它表示拟合模型解释的方差比例。
R平方的取值范围在0到1之间,越接近1表示模型对观测数据的拟合程度越好。
2.Adjusted R-squared(调整R平方):调整R平方是R平方的修正版本,考虑了模型中自变量的数量。
与R平方相比,调整R平方更加严格,避免了自变量数量过多时导致的过拟合问题。
3.F统计量:F统计量用于检验模型是否显著。
在拟合优度中,F统计量用于判断模型解释的方差是否显著大于零。
如果F统计量的p值小于设定的显著性水平(通常为0.05),则可以认为模型的拟合优度是显著的。
4.AIC(赤池信息准则):AIC是一种模型选择准则,用于在多个模型中选择最佳模型。
AIC考虑了模型的拟合优度和参数数量,较小的AIC值表示模型的拟合优度较好。
5.BIC(贝叶斯信息准则):BIC是另一种模型选择准则,与AIC类似,但对参数数量的惩罚更严厉。
BIC值越小表示模型的拟合优度越好。
Stata中计算拟合优度的方法在Stata中,我们可以使用不同的命令和函数来计算拟合优度指标。
以下是一些常用的方法:1.regress命令:regress命令用于拟合线性回归模型,并计算R平方、调整R平方和F统计量。
例如,我们可以使用以下命令来计算拟合优度指标:regress dependent_var independent_var1 independent_var22.logit命令:logit命令用于拟合二元Logistic回归模型,并计算拟合优度指标。
正态性检验的几种方法一、引言正态分布是自然界中一种最常见的也是最重要的分布。
因此,人们在实际使用统计分析时,总是乐于正态假定,但该假定是否成立,牵涉到正态性检验。
目前,正态性检验主要有三类方法:一是计算综合统计量,如动差法、Shapiro-Wilk 法(W 检验)、D ’Agostino 法(D 检验)、Shapiro-Francia 法(W ’检验)。
二是正态分布的拟合优度检验,如2χ检验、对数似然比检验、Kolmogorov-Smirov 检验。
三是图示法(正态概率图Normal Probability plot),如分位数图(Quantile Quantile plot ,简称QQ 图)、百分位数(Percent Percent plot ,简称PP 图)和稳定化概率图(Stablized Probability plot ,简称SP 图)等。
而本文从不同角度出发介绍正态性检验的几种常见的方法,并且就各种方法作了优劣比较,还进行了应用。
二、正态分布2.1 正态分布的概念定义1若随机变量X 的密度函数为()()()+∞∞-∈=--,,21222x e x f x σμπσ其中μ和σ为参数,且()0,,>+∞∞-∈σμ则称X 服从参数为μ和σ的正态分布,记为()2,~σμN X 。
另我们称1,0==σμ的正态分布为标准正态分布,记为()1,0~N X ,标准正态分布随机变量的密度函数和分布函数分别用()x ϕ和()x Φ表示。
引理1 若()2,~σμN X ,()x F 为X 的分布函数,则()⎪⎭⎫⎝⎛-Φ=σμx x F由引理可知,任何正态分布都可以通过标准正态分布表示。
2.2 正态分布的数字特征引理2 若()2,~σμN X ,则()()2,σμ==x D x E 引理3 若()2,~σμN X ,则X 的n 阶中心距为()()N k kn k k n kn ∈⎩⎨⎧=-+==2,!!1212,02σμ定义2 若随机变量的分布函数()x F 可表示为:()()()()x F x F x F 211εε+-= ()10<≤ε其中()x F 1为正态分布()21,σμN 的分布函数,()x F 2为正态分布()22,σμN 的分布函数,则称X 的分布为混合正态分布。
计量经济学所有检验方法一、拟合优度检验可决系数TSS RSS TSS ESS R -==12 TSS 为总离差平方和,ESS 为回归平方和,RSS 为残差平方和 该统计量用来测量样本回归线对样本观测值的拟合优度。
该统计量越接近于1,模型的拟合优度越高。
调整的可决系数)1/()1/(12----=n TSS k n RSS R 其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。
将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。
二、方程的显著性检验(F 检验) 方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。
原假设与备择假设:H 0:β1=β2=β3=…βk =0 H 1: βj 不全为0统计量)1/(/--=k n RSS kESS F 服从自由度为(k , n-k-1)的F 分布,给定显著性水平α,可得到临界值F α(k,n-k-1),由样本求出统计量F 的数值,通过F>F α(k,n-k-1)或F ≤F α(k,n-k-1)来拒绝或接受原假设H 0,以判定原方程总体上的线性关系是否显著成立。
三、变量的显著性检验(t 检验)对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。
原假设与备择假设:H0:βi =0 (i=1,2…k );H1:βi ≠0给定显著性水平α,可得到临界值t α/2(n-k-1),由样本求出统计量t 的数值,通过 |t|> t α/2(n-k-1) 或 |t|≤t α/2(n-k-1)来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。
四、参数的置信区间参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。
统计量)1(~1ˆˆˆ----'--=k n t k n c S t iiii ii ie e βββββ在(1-α)的置信水平下βi 的置信区间是( , ) ββααββi i t s t s ii-⨯+⨯22,其中,t α/2为显著性水平为α、自由度为n-k-1的临界值。
第一章导论1、截面数据:截面数据是许多不同的观察对象在同一时间点上的取值的统计数据集合,可理解为对一个随机变量重复抽样获得的数据。
2、时间序列数据:时间序列数据是同一观察对象在不同时间点上的取值的统计序列,可理解为随时间变化而生成的数据。
3、虚变量数据:虚拟变量数据是人为设定的虚拟变量的取值。
是表征政策、条件等影响研究对象的定性因素的人工变量,其取值一般只取“0”或“1”。
4、内生变量与外生变量:。
内生变量是由模型系统决定同时可能也对模型系统产生影响的变量,是具有某种概率分布的随机变量,外生变量是不由模型系统决定但对模型系统产生影响的变量,是确定性的变量。
第二章一元线性回归模型1、总体回归函数:是指在给定X i下Y分布的总体均值与X i所形成的函数关系(或者说将总体被解释变量的条件期望表示为解释变量的某种函数)2、最大似然估计法(ML): 又叫最大或然法,指用产生该样本概率最大的原则去确定样本回归函数的方法。
3、OLS估计法:指根据使估计的剩余平方和最小的原则来确定样本回归函数的方法。
4、残差平方和:用RSS表示,用以度量实际值与拟合值之间的差异,是由除解释变量之外的其他因素引起的被解释变量变化的部分。
5、拟合优度检验:指检验模型对样本观测值的拟合程度,用表示,该值越接近1表示拟合程度越好。
第三章多元线性回归模型1、多元线性回归模型:在现实经济活动中往往存在一个变量受到其他多个变量影响的现象,表现在线性回归模型中有多个解释变量,这样的模型被称做多元线性回归模型,多元是指多个解释变量2、调整的可决系数:又叫调整的决定系数,是一个用于描述多个解释变量对被解释变量的联合影响程度的统计量,克服了随解释变量的增加而增大的缺陷,与的关系为。
3、偏回归系数:在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该变量增加1单位对被解释变量带来的平均影响程度。
4、正规方程组:采用OLS方法估计线性回归模型时,对残差平方和关于各参数求偏导,并令偏导数为0后得到的方程组,其矩阵形式为。
名词解释据说老师给了:截面数据结构型模型OLS 协整模型虚拟变量拟合优度异方差过度识别自相关1、回归分析:是关于一个变量(被解释变量)对另一个或多个变量(解释变量)依存关系的研究,用适当的数字模型去近似表达或估计变量之间的平均变化关系,根据已知的或固定的解释变量的数值,去估计所研究的被解释变量的总体平均值。
2、异方差性:是指被解释变量观测值的分散程度是随解释变量的变化而变化的。
3、多重共线性:是指在经典回归模型中,某两个或多个解释变量之间出现了相关性。
4、自相关:又称序列相关,是指总体回归模型的随机误差项ui之间存在相关关系。
5、时间序列平稳性:是指时间序列的统计规律不会随着时间的推移而发生变化。
6、伪回归:是指变量间本来不存在有意义的关系,但回归结果却得出存在有意义关系的错误结论。
7、虚拟变量:是人为构造的变量,根据因素属性的类型,一般只取0或1的人工变量。
8 截面数据:指同一时间(或地点)某个指标在不同空间的观测数值。
9、OLS:即最小二乘法,指根据使估计的剩余平方和最小的原则确定样本回归函数的方法。
10、协整:同阶单整的时间序列数据的加权组合是平稳的,则这组时间序列数据是协整的。
11、结构式模型:根据经济理论和行为规律建立的描述经济变量之间直接关系结构的计量经济学方程。
结构式模型中的每一个方程都是结构方程,将一个内生变量表示为其它内生变量、先决变量和随机误差项的函数形式,被称为结构方程的正规形式。
12、回归分析:是关于一个变量(被解释变量)对另一个或多个变量(解释变量)依存关系的研究,用适当的数字模型去近似表达或估计变量之间的平均变化关系,根据已知的或固定的解释变量的数值,去估计所研究的被解释变量的总体平均值。
13、计量经济学:计量经济学是以数理经济学和数理统计学为理论基础和方法论基础的交叉科学。
它以客观经济系统中具有随机性特征的经济关系为研究对象,用数学模型方法描述具体的经济变量关系,为经济计量分析工作提供专门的指导理论和分析方法。
拟合优度的基本思想(一)基本思想在OLS根据残差平方和最小的拟合准则提供了一个回归直线与数据拟合程度的度量,但是可以很容易的证明,只要把所有的数据Y乘以一个相同的尺度,那么残差平方和就可以扩大任意倍数。
所以残差平方和作为衡量尺度有缺陷。
于是推想:由于回归方程的拟合值依赖数据X,则我们关心的问题是,是否可以将X中的变差(即样本的方差,是每个样本观测值与样本均值的偏差)作为数据Y中的一个推断因子?由于拟合优度衡量的是,我们所建立的线性模型利用(或解释)了样本中多少信息,利用的信息越多越好。
信息如何衡量呢?通常用变差(方差),如样本原始数据中含有的信息(波动性)用相依变量的离差平方和表示。
至少从残差平方和为最小这一意义上来说是所有相依变量的变差可以利用数据的实际观测值与均值之间的偏离来度量,即(Yi−Y¯),总变差(total variation)可以利用离差的平方和表示,即SST=∑(Yi−Y¯)2利用回归方程表示,可以将所有样本之间的关系表示为式(1):(1)Y=Xb+e=Y^+e如果利用单个样本表示,则有式(2):(2)yi=yi^+ei=X′ib+ei如果回归方程中包含常数,,则有: ∑i=1nei=0;Y¯=X¯b;Y^¯=Y¯=X¯b利用以上条件,得到式(3):(3)Yi−Y¯=Y^i+ei−Y¯=Y^i−Y¯+ei=(Xi′−X¯)b+ei这说明,样本与均值的偏离等于拟合值与均值的偏离加上残差,进一步等于X与均值的偏离和残差的和。
这说明样本与均值的偏离大部分可以由X与均值的偏离来加以解释。
注意到方程:Yi−Y¯=(Xi′−X¯)b+ei两端都是与均值的偏离,因此可以将其表示成为式(4):(4)M0Y=M0Xb+M0e其中M0为中心化矩阵(也是对称幂等矩阵),其作用是将样本观测值转变成为与均值的偏离, 即中心化矩阵。