多元线性回归模型及其假设条件
- 格式:docx
- 大小:58.83 KB
- 文档页数:6
多元线性回归——模型、估计、检验与预测⼀、模型假设传统多元线性回归模型最重要的假设的原理为:1. ⾃变量和因变量之间存在多元线性关系,因变量y能够被x1,x2….x{k}完全地线性解释;2.不能被解释的部分则为纯粹的⽆法观测到的误差其它假设主要为:1.模型线性,设定正确;2.⽆多重共线性;3.⽆内⽣性;4.随机误差项具有条件零均值、同⽅差、以及⽆⾃相关;5.随机误差项正态分布具体见另⼀篇⽂章:回归模型的基本假设⼆、估计⽅法⽬标:估计出多元回归模型的参数注:下⽂皆为矩阵表述,X为⾃变量矩阵(n*k维),y为因变量向量(n*1维)OLS(普通最⼩⼆乘估计)思想:多元回归模型的参数应当能够使得,因变量y的样本向量在由⾃变量X的样本所构成的线性空间G(x)的投影(即y’= xb)为向量y 在线性空间G(x)上的正交投影。
直⽩⼀点说,就是要使得(y-y’)’(y-y’)最⼩化,从⽽能够使y的预测值与y的真实值之间的差距最⼩。
使⽤凸优化⽅法,可以求得参数的估计值为:b = (x’x)^(-1)x’y最⼤似然估计既然已经在假设中假设了随机误差项的分布为正态分布,那么⾃变量y的分布也可以由线性模型推算出来(其分布的具体函数包括参数b在内)。
进⼀步的既然已经抽取到了y的样本,那么使得y的样本出现概率(联合概率密度)最⼤的参数即为所求最终结果与OLS估计的结果是⼀致的矩估计思想:通过寻找总体矩条件(模型设定时已经有的假设,即⽆内⽣性),在总体矩条件中有参数的存在,然后⽤样本矩形条件来进⾏推导未知参数的解。
在多元回归中有外⽣性假设:对应的样本矩为:最终估计结果与OLS⽅法也是⼀样的。
三、模型检验1.拟合优度检验(1)因变量y是随机变量,⽽估计出来的y’却不是随机变量;(2)拟合优度表⽰的是模型的估计值y’能够在多⼤程度上解释因变量样本y的变动。
(3)y’的变动解释y的变动能⼒越强,则说明模型拟合的越好y-y’就越接近与假设的随机误差(4)⽽因变量的变动是由其⽅差来描述的。
§5.1 多元线性回归模型及其假设条件 1.多元线性回归模型 多元线性回归模型:εi pi p iiix b xb x b b y +++++= 2211,n i ,,2,1 =2.多元线性回归模型的方程组形式 3.多元线性回归模型的矩阵形式4.回归模型必须满足如下的假设条件:第一、有正确的期望函数。
即在线性回归模型中没有遗漏任何重要的解释变量,也没有包含任何多余的解释变量。
第二、被解释变量等于期望函数与随机干扰项之和。
第三、随机干扰项独立于期望函数。
即回归模型中的所有解释变量Xj与随机干扰项u 不相关。
第四、解释变量矩阵X 是非随机矩阵,且其秩为列满秩的,即:n k k X rank 〈=,)(。
式中k 是解释变量的个数,n 为观测次数。
第五、随机干扰项服从正态分布。
第六、随机干扰项的期望值为零。
()0=u E 第七、随机干扰项具有方差齐性。
()σσ22=u i(常数)第八、随机干扰项相互独立,即无序列相关。
()()u u u u jiji,cov ,=σ=0§5.2 多元回归模型参数的估计建立回归模型的基本任务是:求出参数bb b p,,,,1σ的估计值,并进行统计检验。
残差:yy e iiiˆ-=;残差平方和:Q=()∑-∑==y y e i i ni iˆ212矩阵求解:X=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡x xxx x x x x x pn nnp p212221212111111,⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡=b b b b p B ˆˆˆˆ210ˆ ,⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡=-y y y y n n Y 121 ,()YB X X X ττ1ˆ-=1ˆ2--=p n Qσ要通过四个检验:经济意义检验、统计检验、计量经济学检验、模型预测检验。
§5.4 多元线性回归模型的检验一、R 2检验1.R 2检验定义R 2检验又称复相关系数检验法。
§5.1 多元线性回归模型及其假设条件 1.多元线性回归模型 多元线性回归模型:εi pi p iiix b xb x b b y +++++= 2211,n i ,,2,1 =2.多元线性回归模型的方程组形式 3.多元线性回归模型的矩阵形式4.回归模型必须满足如下的假设条件:第一、有正确的期望函数。
即在线性回归模型中没有遗漏任何重要的解释变量,也没有包含任何多余的解释变量。
第二、被解释变量等于期望函数与随机干扰项之和。
第三、随机干扰项独立于期望函数。
即回归模型中的所有解释变量Xj与随机干扰项u 不相关。
第四、解释变量矩阵X 是非随机矩阵,且其秩为列满秩的,即:n k k X rank 〈=,)(。
式中k 是解释变量的个数,n 为观测次数。
第五、随机干扰项服从正态分布。
第六、随机干扰项的期望值为零。
()0=u E 第七、随机干扰项具有方差齐性。
()σσ22=u i(常数)第八、随机干扰项相互独立,即无序列相关。
()()u u u u jiji,cov ,=σ=0§5.2 多元回归模型参数的估计建立回归模型的基本任务是:求出参数bb b p,,,,1σ的估计值,并进行统计检验。
残差:yy e iiiˆ-=;残差平方和:Q=()∑-∑==y y e i i ni iˆ212矩阵求解:X=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡x xxx x x x x x pn nnp p212221212111111,⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡=b b b b p B ˆˆˆˆ210ˆ ,⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡=-y y y y n n Y 121 ,()YB X X X ττ1ˆ-=1ˆ2--=p n Qσ要通过四个检验:经济意义检验、统计检验、计量经济学检验、模型预测检验。
§5.4 多元线性回归模型的检验一、R2检验1.R2检验定义R2检验又称复相关系数检验法。
是通过复相关系数检验一组自变量xx x m,,,21与因变量y 之间的线性相关程度的方法。
多元线性回归分析及其应用一、本文概述《多元线性回归分析及其应用》这篇文章旨在深入探讨多元线性回归分析的基本原理、方法以及在实际应用中的广泛运用。
文章首先将对多元线性回归分析的基本概念进行阐述,包括其定义、特点以及与其他统计分析方法的区别。
随后,文章将详细介绍多元线性回归分析的数学模型、参数估计方法以及模型的检验与优化。
在介绍完多元线性回归分析的基本理论后,文章将重点探讨其在各个领域的应用。
通过具体案例分析,展示多元线性回归分析在解决实际问题中的强大作用,如经济预测、市场研究、医学统计等。
文章还将讨论多元线性回归分析在实际应用中可能遇到的问题,如多重共线性、异方差性等,并提出相应的解决方法。
文章将对多元线性回归分析的发展趋势进行展望,探讨其在大数据时代背景下的应用前景以及面临的挑战。
通过本文的阅读,读者可以全面了解多元线性回归分析的基本理论、方法以及实际应用,为相关领域的研究与实践提供有力支持。
二、多元线性回归分析的基本原理多元线性回归分析是一种预测性的建模技术,它研究的是因变量(一个或多个)和自变量(一个或多个)之间的关系。
这种技术通过建立一个包含多个自变量的线性方程,来预测因变量的值。
这个方程描述了因变量如何依赖于自变量,并且提供了自变量对因变量的影响的量化估计。
在多元线性回归分析中,我们假设因变量和自变量之间存在线性关系,即因变量可以表示为自变量的线性组合加上一个误差项。
这个误差项表示了模型中未能解释的部分,通常假设它服从某种概率分布,如正态分布。
多元线性回归模型的参数估计通常通过最小二乘法来实现。
最小二乘法的基本思想是通过最小化预测值与实际值之间的残差平方和来求解模型的参数。
这个过程可以通过数学上的最优化方法来完成,例如梯度下降法或者正规方程法。
除了参数估计外,多元线性回归分析还需要进行模型的诊断和验证。
这包括检查模型的拟合优度(如R方值)、检验自变量的显著性(如t检验或F检验)、评估模型的预测能力(如交叉验证)以及检查模型的假设是否成立(如残差的正态性、同方差性等)。
σ (u )=σ 第七、随机干扰项具有方差齐性。
(常数)( ( y y ˆ ;残差平方和:Q= ∑ e = ∑ (y i - y ˆ i )2- iix ⎡1矩阵求解:X= ⎢⎢x 1 x (X τ X ) X YτB ˆ =⎢b 0⎥ x p 1⎥ ⎢b ˆ ⎥ ⎢ y 2 ⎥ x pn ⎥⎦ ⎥⎢L ⎥ ⎢ y ⎥ ⎢b ˆp ⎥ ⎢⎣ y n ⎥⎦ ⎣ ˆ ˆ2 ˆ§5.1 多元线性回归模型及其假设条件 1.多元线性回归模型多元线性回归模型: y i = b 0 + b 1 x 1i + b 2x2i + L+ b px pi+ ε i, i = 1,2,L , n2.多元线性回归模型的方程组形式 3.多元线性回归模型的矩阵形式4.回归模型必须满足如下的假设条件:第一、有正确的期望函数。
即在线性回归模型中没有遗漏任何重要的解释变量,也没有包含任何多余的解释变量。
第二、被解释变量等于期望函数与随机干扰项之和。
第三、随机干扰项独立于期望函数。
即回归模型中的所有解释变量 Xj 与随机干扰项 u 不相关。
第四、解释变量矩阵 X 是非随机矩阵,且其秩为列满秩的,即: rank ( X ) = k , k 〈n 。
式中 k 是解释变量的个数,n 为观测次数。
第五、随机干扰项服从正态分布。
第六、随机干扰项的期望值为零。
E (u )= 02i第八、随机干扰项相互独立,即无序列相关。
σ§5.2 多元回归模型参数的估计 2u i ,u j)= cov u i,u j)=0建立回归模型的基本任务是:求出参数σ , b 0,b 1,L ,b p的估计值,并进行统计检验。
残差: e i= ni =12i⎢L ⎢ ⎢11n-11112 x 21x22x 2nL L L L⎡ ˆ ⎤ ⎡ y ⎤ ⎤ ⎢ 1 ⎥ x p 2⎥ , B = ⎢b 1 ⎥ , Y = ⎢ L ⎥ ,⎢ ⎥ ⎢ n -1⎥ ⎣ ⎦σ2=Qn - p - 1要通过四个检验:经济意义检验、统计检验、计量经济学检验、模型预测检验。
∑(y i - y ˆ i )∑(y i - y )R = 1- = 1-1- R⎪⎭ n - m§5.4 多元线性回归模型的检验 一、 R 2检验1. R 2检验定义R 2检验又称复相关系数检验法。
是通过复相关系数检验一组自变量 x 1, x 2,L , x m与因变量 y 之间的线性相关程度的方法。
复相关系数与复可决系数检验中的“复”是相对于一元函数而言。
复相关系数:自变量在两个以上,检验线性关系密切程度的指标,记为R y ,x 1x2Lx p,通常用 R 表示。
复可决系数:复相关系数的平方 R 2。
在实际应用中,判别线性关系密切程度都是用 R 2 检验,所以复可决系数 R 2 是模型拟合优 度指标,R 2 越接近于 1,模型拟合越好。
0≤R 2≤1。
2 22.复相关系数检验法的步骤 1)计算复相关系数;2)根据回归模型的自由度 n-m 和给定的显著性水平 α 值,查相关系数临界值表; 3)判别。
3.调整可决系数 R2 ⎛ ⎝2⎫ n -1 R 2是一个随自变量个数增加而递增的函数,所以,当对两个具有不同自变量个数但性质相同的回归模型进行比较时,不能只用R 2作为评价回归模型优劣的标准,还必须考虑回归模型所包含的自变量个数的影响。
R2消除了自变量个数不同的影响,可以用于不同自变量个数间模型的比较。
4. R 2检验的目的检验模型对原始数据的拟合程度,或对原始数据信息的解释程度。
二、F 检验 1.检验目的通过 F 统计量检验假设H 0: β 1=β2= L = βm = 0 是否成立的方法。
回归方程的显著性检∑(y ˆ i - y )( m -1) ∑(y i - y ˆ i )( F = n - m ) ∑(y i - y ˆ i )∑(y ˆ i - y )的自由度,n-m 是剩余变差(X 'X ) 的第ˆ cov ⎛⎪⎭ Sβ ⎪⎭ ββi验是检验所有系数是否同时为 0,2.F 统计量 22 2 的自由度。
,m-1 是回归变差2F 服从自由度为 (m -1,n - m )的 F 分布。
3.回归效果不显著的原因1)影响 y 的因素除了一组自变量 x 1, x 2,L , xm 之外,还有其他不可忽略的因素。
2)y 与一组自变量3)y 与一组自变量 x 1, x 2,L , xx 1, x 2,L , x mm之间的关系不是线性的。
之间无关。
4.解决办法分析原因另选自变量或改变模型的形式。
三、t 检验1.检验目的回归系数的显著性检验是检验某个系数是否为 0。
2.T 统计量 统计假设 H 0: b i = 0 ;统计量: ti = b i S y cii , Sy = Q n - m, cii 是矩阵 -1I 个对角元素。
ti 是一个自由度为 n-m 的 t 分布变量;统计检验判别: t i ≥ t α 。
否定假设,系数b i≠ 0 。
否则,接受假设 b i= 0 。
四、DW 检验1.序列相关的概念及对回归模型的影响序列相关是指数列的前后期相关。
若时差为一期的序列相关,称为一节自相关。
回归模型假设随机误差项之间不存在序列相关或自相关,即 u i 和 uj 互不相关,⎝ u i,uj ⎫= 0,i ≠ j 。
若回归模型不满足这一假设,则称回归模型存在自相关。
当模型中存在序列自相关时,使用 OLS 方法估计参数,将产生下列严重后果:(1)估计标准误差 S 可能严重低估 σ 的真实值。
(2)样本方差 2 j 可能严重低估 D ⎛ ⎝βi ⎫ 的真实值。
(3)估计回归系数可能歪曲的真实值。
j(4)通常的 F 检验和 t 检验将不再有效。
=ρ et -1 ∑ e e ∑ eˆˆx ' = x - x; ;y ' =β (1 -ρ )+β x ' + v ,ρ ˆ = 1 - 2 。
t1⎢ 1 -ρ⎢ ⎢⎢ 0⎥ M ⎥Ω= P 'P ,X = PX ,Y = PY ,⎦ = Pu ,Y = β + u 。
(5)根据最小二乘估计量所作的预测将无效。
2.序列相关的原因(1)惯性:变量的发展趋势。
(2)偏误:模型设定有误,删去了一些必要变量。
(3)蛛网现象:供给对价格的反应要迟一个时期。
(4)其他原因:例如,现时消费取决于前期消费。
3.序列相关的检验方法D —W 检验法。
适用条件:序列相关是一阶自回归形式。
注意:第一、D —W 检验不适用于随机项具有高阶序列相关的检验。
第二、D —W 检验有 一段不能判断其正相关或负相关的范围。
第三、对于利用滞后被解释变量做为解释变量的 模型,该检验失效。
(1)一阶自相关的数学表达式, e t + V(2)D —W 检验给出了是否存在一阶自相关的结论。
(3)一阶自相关系数 ρ 的估计值: ρ = T t =2 T t =2t t -1 2t;更常用的是: ρ = 1 -d24.消除序列相关的方法 (1)一阶差分法已知自相关的相关系数 ρ=1,原回归模型:y t =β 0 +β1 x t + u t ; u t = ut -1 + v t 。
令:y 't= y t- yt -1t t t -1 y 't= β 1x 't+ v t。
(2)广义差分法原回归模型:y t = β 0 +β1 x t + u t ; ut = ρ u t -1 + v t 。
令 y 't =y t - ρ yt -1,x 't= x t - ρxt -1, t td(3)广义最小二乘法做变换得到广义差分模型。
⎡ P= ⎢ -0ρ M⎢ 0⎣ 0 2 0 1- ρ M 0 0 0 0 1 M 0 0LL L M L L 00 M1 - ρ ⎤0⎥ ⎥ 0⎥ , ⎥ 0⎥ 1⎥-1 * *u* *X* *广义最小二乘估计量:β =(X 'ΩˆX )-1 () X 'Ω Y ,V ˆar β =σ ˆ vˆ (X 'ΩˆX )-1 (Y - X β ~)'Ωˆ (Y - Xβ~)ˆ(X τ W -1 X ) X Wτ ˆ ∑(y i - y ˆ i )y yˆ ˆ e = y - y ˆ0 S = S⎢1+ X (X 'X ) X ' ⎥⎦⎤~-1-1 ~ 2 -1,σ2v = -1 T - k,ρ 用样本普通最小二乘残差的一阶自相关系数来估计。
k 是模型中估计参数个数(含常数项),T 是样本容量。
五、异方差1.异方差及其检验方法(1)异方差性在观察点聚图上的直观表示(对原始数据点而言) (2)异方差性的检验方法:(1)经济分析法。
对数据分组,分别计算方差。
(2)直观判 断法。
对残差而言。
(3)等级相关检验法。
(4)戈里瑟检验。
2.消除异方差的基本方法(1)模型变换法是已知异方差与自变量关系的形式,对模型进行变换,利用方差的性质可以证明是等方差 的。
(2)加权最小二乘法使用异方差性的权矩阵 W 对模型进行变换。
B = -1 -1 Y六、多重共线性1.多重共线性:是指模型中解释变量间存在着一定的相关关系,没有满足独立性要求。
2.原因:(1)各经济变量间存在着内在联系。
(2)各经济变量在时间上有共同增长的趋 势。
(3)在建立模型时引入了一些解释变量的滞后值作为新的解释变量。
3.解决办法:(1)经济分析的办法,找出引起多重共线性的变量,将他排除在外。
(2) 统计分析的方法,降维技术或者逐步回归的方法。
(3)改变变量定义的形式。
七、预测区间 1.估计标准误差2S =n - m2.点预测、预测误差的样本方差 (1)点预测y= x 0B(2)预测误差的样本方差( 和 是向量)0 0预测误差: 0预测误差的样本方差: 0 2 0 2 ⎡ ⎣0 0 -1(3)预测区间ˆ ˆy0 ± t α(n - m )S 0 ,n<30y± χ α 2⋅ S 0, n ≥ 30八、应用实例1.散点图,线性关系检验。
2.建立回归模型。
3.计算回归系数。
4.模型检验(R 、F 、t 、DW )。
5.计算预测区间。