(多元线性回归的向量表述)
- 格式:ppt
- 大小:2.76 MB
- 文档页数:33
第四章 多元线性回归模型在一元线性回归模型中,解释变量只有一个。
但在实际问题中,影响因变量的变量可能不止一个,比如根据经济学理论,人们对某种商品的需求不仅受该商品市场价格的影响,而且受其它商品价格以及人们可支配收入水平的制约;影响劳动力劳动供给意愿(用劳动参与率度量)的因素不仅包括经济形势(用失业率度量),而且包括劳动实际工资;根据凯恩斯的流动性偏好理论,影响人们货币需求的因素不仅包括人们的收入水平,而且包括利率水平等。
当解释变量的个数由一个扩展到两个或两个以上时,一元线性回归模型就扩展为多元线性回归模型。
本章在理论分析中以二元线性回归模型为例进行。
一、预备知识(一)相关概念对于一个三变量总体,若由基础理论,变量21,x x 和变量y 之间存在因果关系,或21,x x 的变异可用来解释y 的变异。
为检验变量21,x x 和变量y 之间因果关系是否存在、度量变量21,x x 对变量y 影响的强弱与显著性、以及利用解释变量21,x x 去预测因变量y ,引入多元回归分析这一工具。
将给定i i x x 21,条件下i y 的均值i i i i i x x x x y E 2211021),|(βββ++= (4.1) 定义为总体回归函数(Population Regression Function,PRF )。
定义),|(21i i i i x x y E y -为误差项(error term ),记为i μ,即),|(21i i i i i x x y E y -=μ,这样i i i i i x x y E y μ+=),|(21,或i i i i x x y μβββ+++=22110 (4.2)(4.2)式称为总体回归模型或者随机总体回归函数。
其中,21,x x 称为解释变量(explanatory variable )或自变量(independent variable );y 称为被解释变量(explained variable )或因变量(dependent variable );误差项μ解释了因变量的变动中不能完全被自变量所解释的部分。
多元线性回归模型一、多元线性回归模型的一般形式设随机变量y 与一般变量p x x x ,,,21 的线性回归模型为:εββββ+++++=p p x x x y 22110 写成矩阵形式为:εβ+=X y其中:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y y 21 ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X 212222********* ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=p ββββ 10 ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n εεεε 21 二、多元线性回归模型的基本假定1、解释变量p x x x ,,,21 是确定性变量,不是随机变量,且要求n p X r a n k <+=1)(。
这里的n p X rank <+=1)(表明设计矩阵X 中自变量列之间不相关,样本容量的个数应大于解释变量的个数,X 是一满秩矩阵。
2、随机误差项具有0均值和等方差,即:⎪⎩⎪⎨⎧⎩⎨⎧=≠====),,2,1,(,,0,),cov(,,2,1,0)(2n j i j i j i n i E j i i σεεε 0)(=i E ε,即假设观测值没有系统误差,随机误差i ε的平均值为0,随机误差i ε的协方差为0表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立),不存在序列相关,并且具有相同的精度。
3、正态分布的假定条件为:⎩⎨⎧=相互独立n i n i N εεεσε ,,,,2,1),,0(~212,矩阵表示:),0(~2n I N σε,由该假定和多元正态分布的性质可知,随机变量y 服从n 维正态分布,回归模型的期望向量为:βX y E =)(;n I y 2)var(σ= 因此有),(~2n I X N y σβ 三、多元线性回归方程的解释对于一般情况含有p 个自变量的回归方程p p x x x y E ββββ++++= 22110)(的解释,每个回归系数i β表示在回归方程中其他自变量保持不变的情况下,自变量i x 每增加一个单位时因变量y 的平均增加程度。
第五章 多元线性回归模型在第四章中,我们讨论只有一个解释变量影响被解释变量的情况,但在实际生活中,往往是多个解释变量同时影响着被解释变量。
需要我们建立多元线性回归模型.一、多元线性模型及其假定 多元线性回归模型的一般形式是i iK K i i i x x x y εβββ++++= 2211令列向量x 是变量x k ,k =1,2,的n 个观测值,并用这些数据组成一个n ×K 数据矩阵X ,在多数情况下,X 的第一列假定为一列1,则β1就是模型中的常数项。
最后,令y 是n 个观测值y 1, y 2, …, y n 组成的列向量,现在可将模型写为:εββ++=K K x x y 11构成多元线性回归模型的一组基本假设为 假定1。
εβ+=X y我们主要兴趣在于对参数向量β进行估计和推断.假定2. ,0][][][][21=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n E E E E εεεε 假定3。
n I E 2][σεε=' 假定4. 0]|[=X E ε我们假定X 中不包含ε的任何信息,由于)],|(,[],[X E X Cov X Cov εε= (1)所以假定4暗示着0],[=εX Cov .(1)式成立是因为,对于任何的双变量X ,Y,有E(XY)=E(XE(Y |X)),而且])')|()([(])')((),(EY X Y E EX X E EY Y EX X E Y X Cov --=--=))|(,(X Y E X Cov =这也暗示 βX X y E =]|[假定5 X 是秩为K 的n ×K 随机矩阵 这意味着X 列满秩,X 的各列是线性无关的。
在需要作假设检验和统计推断时,我们总是假定: 假定6 ],0[~2I N σε 二、最小二乘回归 1、最小二乘向量系数采用最小二乘法寻找未知参数β的估计量βˆ,它要求β的估计βˆ满足下面的条件 22min ˆ)ˆ(ββββX y X y S -=-∆ (2)其中()()∑∑==-'-=⎪⎪⎭⎫ ⎝⎛-∆-nj Kj j ij i X y X y x y X y 1212ββββ,min 是对所有的m 维向量β取极小值.也即 ∑∑==-=n i mj j ij i X y S 112)ˆ()ˆ(ββ∑∑==-=n i mj i ijiXy m112,)(min1βββ (3)满足(2)式或(3)式的估计量⎪⎪⎪⎭⎫ ⎝⎛=m Lβββˆˆˆ1 称为β的最小二乘估计,这种求估计量的方法称为最小二乘法(OLS ). 展开上式得βββββX X X y y X y y S ''+'-''-'=)(或ββββX X y X y y S ''+''-'=2)(最小值的必要条件是022)(='+'-=∂∂βββX X y X S 设b 是解,则b 满足正则方程组y X Xb X '='这正是我们曾分析的最小二乘正则方程组。
多元线性回归模型多元线性回归模型是一种广泛应用于统计学和机器学习领域的预测模型。
它通过使用多个自变量来建立与因变量之间的线性关系,从而进行预测和分析。
在本文中,我们将介绍多元线性回归模型的基本概念、应用场景以及建模过程。
【第一部分:多元线性回归模型的基本概念】多元线性回归模型是基于自变量与因变量之间的线性关系进行建模和预测的模型。
它假设自变量之间相互独立,并且与因变量之间存在线性关系。
多元线性回归模型的数学表达式如下:Y = β0 + β1X1 + β2X2 + … + βnXn + ε其中,Y表示因变量,X1、X2、…、Xn表示自变量,β0、β1、β2、…、βn表示回归系数,ε表示误差项。
回归系数表示自变量对因变量的影响程度,误差项表示模型无法解释的部分。
【第二部分:多元线性回归模型的应用场景】多元线性回归模型可以应用于各种预测和分析场景。
以下是一些常见的应用场景:1. 经济学:多元线性回归模型可以用于预测GDP增长率、失业率等经济指标,揭示不同自变量对经济变量的影响。
2. 医学研究:多元线性回归模型可以用于预测患者的生存时间、治疗效果等医学相关指标,帮助医生做出决策。
3. 市场研究:多元线性回归模型可以用于预测产品销量、市场份额等市场相关指标,帮助企业制定营销策略。
4. 社会科学:多元线性回归模型可以用于研究教育水平对收入的影响、家庭背景对孩子成绩的影响等社会科学问题。
【第三部分:多元线性回归模型的建模过程】建立多元线性回归模型的过程包括以下几个步骤:1. 数据收集:收集自变量和因变量的数据,确保数据的准确性和完整性。
2. 数据清洗:处理缺失值、异常值和离群点,保证数据的可靠性和一致性。
3. 特征选择:根据自变量与因变量之间的相关性,选择最相关的自变量作为模型的输入特征。
4. 模型训练:使用收集到的数据,利用最小二乘法等统计方法估计回归系数。
5. 模型评估:使用误差指标(如均方误差、决定系数等)评估模型的拟合程度和预测性能。
第二节 多元线性回归在许多实际问题中, 常常会遇到要研究一个随机变量与多个变量之间的相关关系,例如,某种产品的销售额不仅受到投入的广告费用的影响,通常还与产品的价格、消费者的收入状况以及其它可替代产品的价格等诸多因素有关系. 研究这种一个随机变量同其他多个变量之间的关系的主要方法是运用多元回归分析. 多元线性回归分析是一元线性回归分析的自然推广形式,两者在参数估计、显著性检验等方面非常相似. 本节只简单介绍多元线性回归的数学模型及其最小二乘估计.一、多元线性回归模型设影响因变量Y 的自变量个数为P ,并分别记为,21,,,p x x x 所谓多元线性模型是指这些自变量对Y 的影响是线性的,即p p x x x Y 22110,),0(~2 N其中p ,,,,210 ,2 是与p x x x ,,,21 无关的未知参数,称Y 为对自变量,21,,,p x x x 的线性回归函数.记n 组样本分别是),,,,(21i ip i i y x x x ),,2,1(n i ,则有n np p n n n p p p p x x x y x x x y x x x y 2211022222211021112211101, 其中n ,,,21 相互独立,且),0(~2 N i ,n i ,,2,1 ,这个模型称为多元线性回归的数学模型. 令Y =n y y y21, X =np n n p p x x x x x x x x x212222*********,p 10,n 21 则上述数学模型可用矩阵形式表示为 X Y其中 是n 维随机向量,它的分量相互独立。
X 称为设计矩阵或资料矩阵。
二、多元线性回归模型的基本假定1.解释变量是确定性的变量,不是随机变量,设计矩阵中要求列向量不能有密切的线性相关性,也称为多重共线性;2. 随机误差项具有0均值和同方差,且随机误差项相互独立,即:j i j i n i E j i i 0),cov(,2,10)(2 3.正态分布条件: 2(0,)N I :,其中I 表示单位矩阵。