总结:线性回归分析的基本步骤知识分享

  • 格式:doc
  • 大小:550.50 KB
  • 文档页数:15

下载文档原格式

  / 15
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总结:线性回归分析的基本步骤

线性回归分析的基本步骤

步骤一、建立模型

知识点:

1、总体回归模型、总体回归方程、样本回归模型、样本回归方程 ①总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。Y X U β=+

特点:由于随机误差项U 的存在,使得Y 和X 不在一条直线/平面上。 例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X )与每周

作出其散点图如下:

②总体回归方程(线):由于假定0EU =,因此因变量的均值与自变量总处于一条直线上,这条直线()|E Y X X β=就称为总体回归线(方程)。

总体回归方程的求法:以例1的数据为例

由于01|i i i E Y X X ββ=+,因此任意带入两个X i 和其对应的E (Y |X i )值,即可求出01ββ和,并进而得到总体回归方程。

如将()()222777100,|77200,|137X E Y X X E Y X ====和代入

()01|i i i E Y X X ββ=+可得:0100117710017

1372000.6ββββββ=+=⎧⎧⇒⎨⎨=+=⎩⎩

以上求出01ββ和反映了E (Y |X i )和X i 之间的真实关系,即所求的总体回归方程为:()|170.6i i i E Y X X =+,其图形为:

③样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。如在例1中,通过抽样考察,我们得到了20个家庭的样本数据: 那么描述样本数据中因变量Y 和自变量X 之间非确定依赖关系的模型

ˆY X e β

=+就称为样本回归模型。

④样本回归方程(线):通过样本数据估计出ˆβ,得到样本观测值的拟

合值与解释变量之间的关系方程

ˆ

ˆY Xβ

=称为样本回归方程。如下图所

示:

⑤四者之间的关系:

ⅰ:总体回归模型建立在总体数据之上,它描述的是因变量Y和自变量X之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之上,它描述的是因变量Y和自变量X之间的近似于真实的非确定型依赖关系。这种近似表现在两个方面:一是结构参数ˆβ是其真实值β的一种近似估计;二是残差

e是随机误差项U的一个近似估计;

ⅱ:总体回归方程是根据总体数据得到的,它描述的是因变量的条件均值E(Y|X)与自变量X之间的线性关系;样本回归方程是根据抽样数据得到的,它描述的是因变量Y样本预测值的拟合值

ˆY与自变量X之间的线性关系。

ⅲ:回归分析的目的是试图通过样本数据得到真实结构参数β的估计值,并要求估计结果ˆβ足够接近真实值β。由于抽样数据有多种可能,

每一次抽样所得到的估计值ˆβ

都不会相同,即β的估计量ˆβ是一个随机变量。因此必须选择合适的参数估计方法,使其具有良好的统计性质。 2、随机误差项U 存在的原因: ①非重要解释变量的省略 ②人的随机行为 ③数学模型形式欠妥

④归并误差(如一国GDP 的计算) ⑤测量误差等

3、多元回归模型的基本假定 ①随机误差项的期望值为零()0i E U =

②随机误差项具有同方差性2() 1,2,

,i Var u i n σ==

③随机误差项彼此之间不相关(,)0 ; ,1,2,,i j Cov u u i j i j n =≠= ④解释就变量X 1,X 2,···,X k 为确定型变量,与随机误差项彼此不相关。

(,)0 1,2,

, 1,2,

,ij j Cov X u i k j n ===

⑤解释就变量X 1,X 2,···,X k 之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵X 为满秩矩阵:rank (X )=k +1

步骤二、参数估计

知识点:

1、最小二乘估计的基本原理:残差平方和最小化。

2、参数估计量:

① 一元回归:12

01ˆˆˆi i i x y x Y X

βββ⎧=⎪⎨⎪=-⎩∑∑

② 多元回归:

()1ˆT X X X Y β-'= 3、最小二乘估计量的性质(Gauss-Markov 定理):

在满足基本假设的情况下,最小二乘估计量ˆβ是β的最优线性无偏估计量(BLUE 估计量)

步骤三、模型检验

1、经济计量检验(后三章内容)

2、统计检验 ①拟合优度检验 知识点:

ⅰ:拟合优度检验的作用:检验回归方程对样本点的拟合程度 ⅱ:拟合优度的检验方法:计算(调整的)样本可决系数22/R R

21RSS ESS

R TSS TSS

=

=-,2/1

1/1

ESS n k R TSS n --=-

-

注意掌握离差平方和、回归平方和、残差平方和之间的关系以及它们的自由度。

计算方法:通过方差分析表计算

例2:下表列出了三变量(二元)模型的回归结果:

1) 样本容量为多少?

解:由于TSS 的自由度为n -1,由上表知n -1=14,因此样本容量n =15。 2) 求ESS

解:由于TSS =ESS +RSS ,故ESS =TSS -RSS =77 3) ESS 和RSS 的自由度各为多少?

解:对三变量模型而言,k =2,故ESS 的自由度为n -k -1=12 RSS 的自由度为k =2 4) 求22R R 和

解:2

659650.998866042RSS R TSS =

==,2

/110.9986/1

ESS n k R TSS n --=-=-

②回归方程的显著性检验(F 检验)

目的:检验模型中的因变量与自变量之间是否存在显著的线性关系 步骤:1、提出假设:

0121:...0:0 , 1,2,...,k j H H j k

ββββ====≠=至少有一

2、构造统计量:/~(,1)/1

RSS k

F F k n k ESS n k =

----

3、给定显著性水平α,确定拒绝域(),1F F k n k α>--

4、计算统计量值,并判断是否拒绝原假设