第四章 方差分量线性回归模型
- 格式:doc
- 大小:1000.50 KB
- 文档页数:35
线性统计模型知识点总结一、线性回归模型1. 线性回归模型的基本思想线性回归模型是一种用于建立自变量和因变量之间线性关系的统计模型。
它的基本思想是假设自变量与因变量之间存在线性关系,通过对数据进行拟合和预测,以找到最佳拟合直线来描述这种关系。
2. 线性回归模型的假设线性回归模型有一些假设条件,包括:自变量与因变量之间存在线性关系、误差项服从正态分布、误差项的方差是常数、自变量之间不存在多重共线性等。
3. 线性回归模型的公式线性回归模型可以用如下的数学公式来表示:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε,其中Y 是因变量,X是自变量,β是模型的系数,ε是误差项。
4. 线性回归模型的参数估计线性回归模型的参数估计通常使用最小二乘法来进行。
最小二乘法的目标是通过最小化残差平方和来寻找到最佳的模型系数。
5. 线性回归模型的模型评估线性回归模型的好坏可以通过很多指标来进行评价,如R-squared(R^2)、调整后的R-squared、残差标准差、F统计量等。
6. 线性回归模型的应用线性回归模型广泛应用于经济学、金融学、市场营销、社会科学等领域,用以解释变量之间的关系并进行预测。
二、一般线性模型(GLM)1. 一般线性模型的基本概念一般线性模型是一种用于探索因变量与自变量之间关系的统计模型。
它是线性回归模型的一种推广形式,可以处理更为复杂的数据情况。
2. 一般线性模型的模型构建一般线性模型与线性回归模型相似,只是在因变量和自变量之间的联系上,进行了更为灵活的变化。
除了线性模型,一般线性模型还可以包括对数线性模型、逻辑斯蒂回归模型等。
3. 一般线性模型的假设一般线性模型与线性回归模型一样,也有一些假设条件需要满足,如误差项的正态分布、误差项方差的齐性等。
4. 一般线性模型的模型评估一般线性模型的模型评估通常涉及到对应的似然函数、AIC、BIC、残差分析等指标。
5. 一般线性模型的应用一般线性模型可以应用于各种不同的领域,包括医学、生物学、社会科学等,用以研究因变量与自变量之间的关系。
各种线性回归模型原理线性回归是一种广泛应用于统计学和机器学习领域的方法,用于建立自变量和因变量之间线性关系的模型。
在这里,我将介绍一些常见的线性回归模型及其原理。
1. 简单线性回归模型(Simple Linear Regression)简单线性回归模型是最简单的线性回归模型,用来描述一个自变量和一个因变量之间的线性关系。
模型方程为:Y=α+βX+ε其中,Y是因变量,X是自变量,α是截距,β是斜率,ε是误差。
模型的目标是找到最优的α和β,使得模型的残差平方和最小。
这可以通过最小二乘法来实现,即求解最小化残差平方和的估计值。
2. 多元线性回归模型(Multiple Linear Regression)多元线性回归模型是简单线性回归模型的扩展,用来描述多个自变量和一个因变量之间的线性关系。
模型方程为:Y=α+β1X1+β2X2+...+βnXn+ε其中,Y是因变量,X1,X2,...,Xn是自变量,α是截距,β1,β2,...,βn是自变量的系数,ε是误差。
多元线性回归模型的参数估计同样可以通过最小二乘法来实现,找到使残差平方和最小的系数估计值。
3. 岭回归(Ridge Regression)岭回归是一种用于处理多重共线性问题的线性回归方法。
在多元线性回归中,如果自变量之间存在高度相关性,会导致参数估计不稳定性。
岭回归加入一个正则化项,通过调节正则化参数λ来调整模型的复杂度,从而降低模型的过拟合风险。
模型方程为:Y=α+β1X1+β2X2+...+βnXn+ε+λ∑βi^2其中,λ是正则化参数,∑βi^2是所有参数的平方和。
岭回归通过最小化残差平方和和正则化项之和来估计参数。
当λ=0时,岭回归变为多元线性回归,当λ→∞时,参数估计值将趋近于0。
4. Lasso回归(Lasso Regression)Lasso回归是另一种用于处理多重共线性问题的线性回归方法,与岭回归不同的是,Lasso回归使用L1正则化,可以使得一些参数估计为0,从而实现特征选择。
统计学中的回归模型和方差分析回归模型和方差分析是统计学中非常重要的概念。
回归模型可以用来分析自变量和因变量之间的关系,而方差分析则可以用来比较几个或多个样本之间的差异。
回归模型回归模型是一种用来描述自变量和因变量之间关系的模型。
在统计学中,自变量往往是对因变量有影响的因素,因变量则是要研究的量。
回归模型的目的就是找到自变量和因变量之间的函数关系,使得我们可以根据自变量的值来预测因变量的值。
例如,在经济学中,我们可以用记者会发言次数来预测股票价格的变化。
这里,“记者会发言次数”就是自变量,“股票价格”就是因变量。
我们可以通过回归模型来找到两者之间的关系。
回归模型通常用线性方程表示,即Y = a + bX其中,Y是因变量,X是自变量,a和b是系数。
这个方程描述了两者之间的线性关系,可以用来预测Y的值。
方差分析方差分析则是用来比较几个或多个样本之间的差异的方法。
在实验中,我们通常需要比较两个或多个样本之间的差异,来判断它们是否有显著性差异。
方差分析可以帮助我们确定是否这些差异是由于样本之间的差异导致的,还是由于其他因素导致的。
例如,我们想要比较三种不同种类的肥料对植物生长的影响。
我们可以把植物随机地分成三组,将每组都使用不同种类的肥料进行施肥,并观察每组植物的生长状况。
通过方差分析,我们可以确定这些组之间的差异是否是由于肥料的不同导致的,还是由于其他因素导致的。
总结回归模型和方差分析是统计学中非常重要的概念。
回归模型可以用来分析自变量和因变量之间的关系,而方差分析则可以用来比较几个或多个样本之间的差异。
这两个方法都是统计学中非常有效的工具,可以帮助我们更好地分析和理解数据。
线性回归模型的基本原理1. 引言线性回归模型是统计学中最基础的模型之一,也是机器学习的重要组成部分。
它以线性关系描述自变量和因变量之间的关系,通过最小化预测值与实际观测值之间的差异来拟合数据。
本文将介绍线性回归模型的基本原理,包括模型表示、损失函数、参数估计、优化方法等方面的内容。
2. 模型表示在线性回归模型中,假设自变量x和因变量y之间存在一个线性关系,可以用如下的数学表示来描述:y = β₀ + β₁x₁ + β₂x₂ + … + βₚxₚ + ε其中,y表示因变量,x₁、x₂、…、xₚ表示自变量,β₀、β₁、β₂、…、βₚ表示模型的参数,ε表示误差项。
在该模型中,自变量的个数可以是任意多个。
3. 损失函数为了评估模型的拟合程度,需要定义一个损失函数来衡量预测值与实际观测值之间的差异。
常用的损失函数是平方损失函数:L(β) = ∑(yᵢ - ŷᵢ)²其中,yᵢ表示实际观测值,ŷᵢ表示对应的预测值。
通过最小化损失函数,可以得到模型参数的最优解。
4. 参数估计为了确定参数的值,需要使用训练数据进行参数估计。
常用的方法是最小二乘法(Ordinary Least Squares, OLS)。
最小二乘法通过最小化平方误差来估计参数:βₚ = (XᵀX)⁻¹Xᵀy其中,X是设计矩阵,包含自变量对应的观测值;y是因变量对应的观测值;(XᵀX)⁻¹表示矩阵XᵀX的逆矩阵。
5. 优化方法除了最小二乘法外,还有许多其他优化方法可以用于参数估计,如梯度下降法(Gradient Descent)、牛顿法(Newton’s Method)等。
这些方法可以根据具体情况选择合适的优化算法来求解。
梯度下降法:通过迭代调整参数来逐步减小损失函数的值,直到达到最优解。
梯度下降法的核心思想是朝着负梯度方向更新参数,不断接近最优解。
具体步骤包括初始化参数、计算梯度、更新参数等。
牛顿法:利用二阶导数信息来更新参数,相比梯度下降法更快收敛。
线性回归模型的基本原理线性回归是一种常用的统计分析方法,用于建立自变量和因变量之间的线性关系模型。
它的基本原理是通过拟合一条直线或者超平面来描述自变量和因变量之间的关系,从而进行预测和分析。
一、线性回归模型的表示线性回归模型可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y表示因变量,X1、X2、...、Xn表示自变量,β0、β1、β2、...、βn表示模型的系数,ε表示误差项。
二、模型参数的估计线性回归模型的参数估计是通过最小二乘法来实现的。
最小二乘法的目标是使得模型预测值与实际观测值之间的残差平方和最小化。
具体而言,我们需要求解模型参数β0、β1、β2、...、βn,使得残差平方和最小。
可以通过求解下面的正规方程组来得到参数的估计值:X'Xβ = X'Y其中,X是自变量矩阵,X'表示X的转置,Y是因变量向量,β是参数向量。
三、模型的评估在得到模型的参数估计值之后,我们需要对模型进行评估,以判断模型的拟合程度和预测能力。
常用的评估指标包括:1. 残差平方和(SSE):表示模型预测值与实际观测值之间的差异程度,SSE越小表示模型拟合程度越好。
2. 均方误差(MSE):是SSE除以样本量的平均值,用于衡量模型的预测能力。
3. 决定系数(R-squared):表示模型解释变量的方差比例,取值范围为0到1,越接近1表示模型的解释能力越强。
四、模型的应用线性回归模型广泛应用于各个领域,例如经济学、金融学、社会科学等。
它可以用于预测和分析各种现象和问题,如股票价格预测、销售量预测、房价预测等。
线性回归模型的优点是简单易懂,计算效率高,可以提供可解释性强的结果。
然而,线性回归模型也有一些限制,例如对于非线性关系的建模能力较弱,容易受到异常值的影响。
五、模型的改进为了克服线性回归模型的一些限制,研究者们提出了许多改进的方法,如岭回归、lasso回归、弹性网等。
线性回归用线性模型数据线性回归是一种常用的统计分析方法,用于建立变量之间的线性关系模型。
它通过找到最佳拟合线,将自变量与因变量之间的关系量化,并用于预测和解释数据。
本文将详细介绍线性回归的概念、基本原理、模型建立和应用实例。
一、线性回归概述线性回归,顾名思义,是一种建立线性模型的回归分析方法。
它假设自变量和因变量之间存在着线性关系,并试图找到一条直线,使得预测值与实际观测值之间的差异最小化。
线性回归模型可表示为:Y = β₀ + β₁X₁ + β₂X₂ + ... + βₚXₚ + ε,其中Y表示因变量,X₁、X₂、...、Xₚ表示自变量,β₀、β₁、β₂、...、βₚ为回归系数,ε为误差项。
二、线性回归的基本原理线性回归的基本原理是最小二乘法。
该方法通过最小化观测值与拟合值之间的平方差,来确定回归系数的估计值。
具体而言,最小二乘法通过计算残差平方和的最小值,找到最佳拟合线。
这一过程可以使用矩阵运算来实现,即通过求解正规方程组来得到回归系数的估计值。
三、线性回归模型建立步骤1. 数据准备:收集自变量和因变量的数据,并进行数据清洗和预处理。
2. 模型选择:根据实际情况和需求,选择合适的线性回归模型(简单线性回归、多元线性回归等)。
3. 模型拟合:利用最小二乘法估计回归系数,得到拟合模型。
4. 模型评估:通过统计指标(如R²、F统计量、标准误差等)评估模型的拟合程度和可靠性。
5. 模型应用:利用建立的线性回归模型进行预测、解释和决策等分析。
四、线性回归的应用实例线性回归广泛应用于各个领域,以下是两个实际应用案例:1. 房价预测:假设我们想预测某城市的房价,可以收集相关因素(如面积、地段、楼层等)和对应的房价数据,建立多元线性回归模型,从而根据这些因素预测房价。
2. 销售预测:假设我们想预测某种产品的销售量,可以收集相关因素(如价格、广告投入、竞争对手销售量等)和对应的销售数据,建立多元线性回归模型,从而预测产品销售量,并优化相关因素以提高销售表现。
第四章 多元线性回归模型第一节 二元线性回归模型一、二元线性回归模型的设定设二元线性回归模型为: 01122Y X X βββε=+++假设从总体中随机抽取了一个容量为n 的样本,其观测为11121212221212(,,),(,,)(,,)(,,)i i i n n n y x x y x x y x x y x x L L L L ,则模型可以表示为:10111221120112222201122n n n ny x x y x x y x x βββεβββεβββε=+++=+++=+++L L如果令1112110212222121211,,,1n n n n y x x y x x Y X y x x εβεββεβε⎛⎫⎡⎤⎛⎫⎛⎫ ⎪ ⎪⎢⎥ ⎪ ⎪ ⎪⎢⎥==== ⎪ ⎪ ⎪⎢⎥⎪ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎣⎦⎝⎭M M M M M则二元线性回归模型可用的矩阵表示为:Y X βε=+关于二元线性回归模型的假设条件,前五条与一元线性回归模型的假定是一致的,由于二元线性回归模型中增加了一个解释变量,所以二元线性回归模型还需增加一个假定,即假定1X 与2X 不存在多重共线性。
二、二元线性回归模型的参数估计假设已经得到参数0β,1β,2β的估计值分别记为0ˆβ,1ˆβ,2ˆβ,则iε的估计值ˆi ε和观测值i y 可以表示为:0112201122垐?ˆˆ(1,2,)垐?ˆ(1,2,)i i i i i ii i i i y y y x x i n y x x i n εββββββε⎧=-=---=⎪⎨=+++=⎪⎩L L L L则根据最小二乘法的思想,要取这样一组0ˆβ,1ˆβ,2ˆβ,使残差平方和最小,即 220112211垐?ˆmin ()n ni i i ii i S y x x εβββ====---∑∑ 为使上式达到最小值,可以对0ˆβ,1ˆβ,2ˆβ求偏导得到: 01122100112211101122212垐?2()(1)0ˆ垐?2()()0ˆ垐?2()()0ˆn i i ii n i i i ii ni i i ii Sy x x S y x x x S y x x x ββββββββββββ===⎧∂=---⨯-=⎪∂⎪⎪∂⎪=---⨯-=⎨∂⎪⎪∂⎪=---⨯-=⎪∂⎩∑∑∑ 由上式可以得到0ˆβ,1ˆβ,2ˆβ的值。
第四章 方差分量线性回归模型本章考虑的线性模型不仅有固定效应、随机误差,而且有随机效应。
我们先从随机效应角度理解回归概念,导出方差分量模型,然后研究模型三种主要解法。
最后本章介绍关于方差分量模型的两个前沿研究成果,是作者近期在?应用数学学报?与国际数学杂志?Communications in Statistics?上发表的。
第一节 随机效应与方差分量模型一、随机效应回归模型前面所介绍的回归模型不仅都是线性的,而且自变量看作是固定效应。
我们从资料对npi i i X X Y 11},,{ 出发建立回归模型,过去一直是把Y 看作随机的,X 1,…,X p 看作非随机的。
但是实际上,自变量也经常是随机的,而并不是我们可以事先设计好的设计矩阵。
我们把自变量也是随机变量的回归模型称为随机效应回归模型。
终究一个回归模型的自变量是随机的还是非随机的,要视具体情况而定。
比方一般情况下消费函数可写为)(0T X b C C -+=〔4.1.1〕这里X 是居民收入,T 是税收,C 0是生存根本消费,b 是待估系数。
加上随机扰动项,就是一元线性回归模型ε+-+=)(0T X b C C〔4.1.2〕那么自变量到底是固定效应还是随机效应?那要看你采样情况。
如果你是按一定收入的家庭去调查他的消费,那是取设计矩阵,固定效应。
如果你是随机抽取一些家庭,不管他收入如何都登记他的收入与消费,那就是随机效应。
对于随机效应的回归模型,我们可以从条件期望的角度推导出与最小二乘法那么等价的回归函数。
我们希望通过X 预测Y ,也就是要寻找一个函数),,()(1p X X M X M Y ==,当X 的观察值为x 时,这个预测的误差平均起来应到达最小,即22)]([min )]([X L Y E X M Y E L-=-〔4.1.3〕这里min 是对一切X 的可测函数L(X)取极小。
由于当)|()(X Y E X M =〔4.1.4〕时,容易证明0)]()()][([=--X L X M X M Y E〔4.1.5〕故当)|()(X Y E X M =时,222)]()([)]([)]([X L X M E X M Y E X L Y E -+-=-〔4.1.6〕要使上式左边极小,只有取)|()()(X Y E X M X L ==。
1 线性回归1.1 原理分析要研究最大积雪深度x与灌溉面积y之间的关系,测试得到近10年的数据如下表:使用线性回归的方法可以估计x与y之间的线性关系。
线性回归方程式:对应的估计方程式为线性回归完成的任务是,依据观测数据集(x1,y1),(x2,y2),...,(xn,yn)使用线性拟合估计回归方程中的参数a和b。
a,b都为估计结果,原方程中的真实值一般用α和β表示。
为什么要做这种拟合呢?答案是:为了预测。
比如根据前期的股票数据拟合得到股票的变化趋势(当然股票的变化可就不是这么简单的线性关系了)。
线性回归的拟合过程使用最小二乘法,最小二乘法的原理是:选择a,b的值,使得残差的平方和最小。
为什么是平方和最小,不是绝对值的和?答案是,绝对值也可以,但是,绝对值进行代数运算没有平方那样的方便,4次方又显得太复杂,数学中这种“转化化归”的思路表现得是那么的优美!残差平方和Q,求最小,方法有很多。
代数方法是求导,还有一些运筹学优化的方法(梯度下降、牛顿法),这里只需要使用求导就OK了,为表示方便,引入一些符号,最终估计参数a与b的结果是:自此,针对前面的例子,只要将观测数据带入上面表达式即可计算得到拟合之后的a和b。
不妨试一试?从线性函数的角度,b表示的拟合直线的斜率,不考虑数学的严谨性,从应用的角度,结果的b可以看成是离散点的斜率,表示变化趋势,b的绝对值越大,表示数据的变化越快。
线性回归的估计方法存在误差,误差的大小通过Q衡量。
1.2 误差分析考虑获取观测数据的实验中存在其它的影响因素,将这些因素全部考虑到e~N(0,δ^2)中,回归方程重写为y = a + bx + e由此计算估计量a与b的方差结果为,a与b的方差不仅与δ和x的波动大小有关,而且还与观察数据的个数有关。
在设计观测实验时,x的取值越分散,估计ab的误差就越小,数据量越大,估计量b的效果越好。
这也许能为设计实验搜集数据提供某些指导。
1.3 拟合优度检验及统计量拟合优度检验模型对样本观测值的拟合程度,其方法是构造一个可以表征拟合程度的指标,称为统计量,统计量是样本的函数。
线性回归模型的原理及应用
线性回归模型是一种统计学习方法,用于建立自变量与因变量之间的线性关系。
其基本原理如下:
1. 假设:线性回归模型假设自变量和因变量之间存在线性关系,即因变量可以由自变量线性组合而成。
2. 模型表示:线性回归模型可以表示为:y = w0 + w1*x1 + w2*x2 + ... + wn*xn,其中y表示因变量,x1, x2, ..., xn表示自变量,w0, w1, w2, ..., wn表示模型参数。
3. 参数估计:线性回归模型的参数可以通过最小二乘法进行估计,即使得模型预测值与实际观测值之间的差异最小化。
4. 模型评估:常用的评估指标包括均方误差(MSE)、均方根误差(RMSE)和决定系数(R-square)等。
线性回归模型的应用广泛,常见的应用领域包括:
1. 经济学:线性回归模型可以用于经济学领域中的消费者行为研究、市场需求分析等。
2. 金融学:线性回归模型可以用于股票价格预测、风险管理等金融领域的问题。
3. 生物学:线性回归模型可以用于基因表达量与基因组特征之间的关系研究、生态学中的种群分布模型等。
4. 医学:线性回归模型可以用于研究生物标志物与疾病风险之间的关系、药物代谢动力学等。
5. 工程学:线性回归模型可以用于建筑物能耗预测、交通流量分析等。
总之,线性回归模型是一种简单而强大的统计学习方法,能够有效地描述自变量与因变量之间的线性关系,并在各个领域有广泛的应用。
线性回归模型的基本原理线性回归是机器学习中最基础也最经典的算法之一。
它通过建立一个线性模型来描述自变量和因变量之间的关系,并通过最小化预测值与实际观测值之间的差异来确定最优模型参数。
本文将介绍线性回归模型的基本原理及其应用。
一、线性回归的定义和模型表达式在讨论线性回归模型的原理之前,我们先来定义一下线性回归模型。
给定一个包含m个观测样本的数据集,每个样本包含n个自变量和一个因变量,我们的目标是找到一个线性方程,用来最好地拟合这些数据。
假设自变量用x表示,因变量用y表示,线性回归模型可以表示为: y = β0 + β1x1 + β2x2 + … + βn*xn + ε其中,y是因变量(待预测值),x1, x2, …, xn是自变量(特征值),β0, β1, β2, …, βn是模型参数,ε是随机误差项。
在上述方程中,β0代表截距(intercept),β1, β2, …, βn 分别代表各个自变量的回归系数(coefficient)。
通过对自变量与因变量之间的关系进行建模,我们可以预测任何一个新的自变量对应的因变量。
二、损失函数和最小二乘法在求解线性回归模型的参数时,需要确定一种衡量预测值与真实观测值差异的方法。
常用的方法是使用损失函数(Loss Function)来度量预测值与真实观测值之间的差异。
在线性回归中,最常见且被广泛采用的损失函数是均方误差(Mean Squared Error,简称MSE)。
MSE定义为预测值与真实观测值之差的平方和的均值。
损失函数MSE可以表示为: MSE其中,m表示样本数量,yi表示第i个样本的真实观测值,是基于线性回归模型得出的预测值。
最小二乘法是求解线性回归参数的常用方法。
其核心思想是通过最小化损失函数MSE来寻找最优参数。
为了求解最小二乘法问题,我们需要对损失函数MSE关于未知参数β0, β1, β2, …, βn进行求导,并令导数等于零。
然后通过求解这组方程可以得到唯一解。
机器学习线性回归模型线性回归是一种基础的机器学习算法,它的主要工作是尝试学习一种非线性关系,它通过建立一个线性函数来描述输入变量与输出变量之间的关系。
它是监督学习的一种,也是最常见的监督学习算法之一。
线性回归模型假设输出变量可以被一组输入变量来描述,这些输入变量可以是离散的或连续的,但是有一个大前提,即被描述的输出变量和输入变量之间存在着线性的关系。
线性回归的主要目的是发现输入变量和输出变量之间的线性关系,即找到合适的回归系数来最小化输出变量和输入变量之间的误差,同时可以预测未知数据。
在机器学习中,用线性回归模型来预测数据集中给定的输出变量。
在模型建立之前,需要将数据集分为两个部分,一部分用来训练模型,另一部分用来验证模型的准确性。
建立线性回归模型后,开始集中在模型的良好估计和评价的表现,这里的估计和评价的表现是指模型的准确性,这个准确率可以通过五种方法来评估,分别是最小平方误差、均方根误差、均方差比、决定系数、以及解释方差分析来衡量。
似然比测试是线性回归模型的常用估计方法,它是用于检验模型中参数是否显著的概率检验。
它可以测试模型是否偏向于回归分析,同时它可以用来检验假设变量是否对模型有重要影响。
当线性回归模型拟合过程完成后,系数f评估,就可以用来预测未知数据。
在评估模型性能的时候,可以使用交叉验证和真实数据验证来验证模型的准确性,交叉验证是将数据集分为两部分,一部分用来训练模型,另一部分用来验证模型,让它们比较他们自己的结果和模型的预测值,以确定其准确性。
如果模型准确性越高,预测它的参数也越准确,那么就越能够预测出未知数据。
综上所述,线性回归模型是一种常用的机器学习算法,可以用来预测未知数据,最小化输出变量和输入变量之间的误差,并可以通过多种方法来评估模型的准确性。
本文重点介绍了线性回归的基本概念及其应用,详细阐述了线性回归模型的建立方法、评价方法以及预测方法,同时介绍了似然比测试,表明线性回归模型在机器学习中是一种有效的工具,可以有效地预测未知数据。
第四章 方差分量线性回归模型本章考虑的线性模型不仅有固定效应、随机误差,而且有随机效应。
我们先从随机效应角度理解回归概念,导出方差分量模型,然后研究模型三种主要解法。
最后本章介绍关于方差分量模型的两个前沿研究成果,是作者近期在《应用数学学报》与国际数学杂志《Communications in Statistics 》上发表的。
第一节 随机效应与方差分量模型一、随机效应回归模型前面所介绍的回归模型不仅都是线性的,而且自变量看作是固定效应。
我们从资料对npi i i X X Y 11},,{ 出发建立回归模型,过去一直是把Y 看作随机的,X 1,…,X p 看作非随机的。
但是实际上,自变量也经常是随机的,而并不是我们可以事先设计好的设计矩阵。
我们把自变量也是随机变量的回归模型称为随机效应回归模型。
究竟一个回归模型的自变量是随机的还是非随机的,要视具体情况而定。
比如一般情况下消费函数可写为)(0T X b C C -+=(4.1.1)这里X 是居民收入,T 是税收,C 0是生存基本消费,b 是待估系数。
加上随机扰动项,就是一元线性回归模型ε+-+=)(0T X b C C(4.1.2)那么自变量到底是固定效应还是随机效应?那要看你采样情况。
如果你是按一定收入的家庭去调查他的消费,那是取设计矩阵,固定效应。
如果你是随机抽取一些家庭,不管他收入如何都登记他的收入与消费,那就是随机效应。
对于随机效应的回归模型,我们可以从条件期望的角度推导出与最小二乘法则等价的回归函数。
我们希望通过X 预测Y ,也就是要寻找一个函数),,()(1p X X M X M Y ==,当X 的观察值为x 时,这个预测的误差平均起来应达到最小,即22)]([min )]([X L Y E X M Y E L-=-(4.1.3)这里min 是对一切X 的可测函数L(X)取极小。
由于当)|()(X Y E X M =(4.1.4)时,容易证明0)]()()][([=--X L X M X M Y E(4.1.5)故当)|()(X Y E X M =时,222)]()([)]([)]([X L X M E X M Y E X L Y E -+-=-(4.1.6)要使上式左边极小,只有取)|()()(X Y E X M X L ==。
这个结果告诉我们,预测函数取作条件期望E (Y |X )时,可使预测误差最小。
我们还可以证明,此时M (X )=E (Y |X )与Y 具有最大相关,即))(,( max ))(,(LX L Y X M Y ρρ=(4.1.7)这里ρ表示相关系数。
这是因为当)|()(X Y E X M =时,易证))(),((Cov ))(,(Cov X L X M X L Y =,同时))(),((Cov ))(,(Cov X M X M X M Y =,于是))(,( ))(,())(),(( )]([)]([)()]([)]([)]([))(),((Cov )]([)())(,(Cov )]([)())(,(Cov ))(,(2222222X M Y X M Y X L X M X M D X M D Y D X M D X L D X M D X L X M X L D Y D X L M X L D Y D X L Y X L Y ρρρρ≤⋅=⋅⋅====等号当且仅当1|))(),((|=X L X M ρ(4.1.8)时成立,此时L (X )是M (X )的线性函数。
(4.1.3)与(4.1.7)表达了)|()(X Y E X M =的极好性质,我们称)|()(X Y E X M Y ==(4.1.9)为Y 关于X 的回归曲线。
上面的L (X )可取一切函数。
如果限定L (X )是X 的线性函数,即要限定L2110min ]|)([|=+++-m m X X Y E βββ(4.1.10)这里Lmin 是对X 的一切线性函数取极小,则称满足上式的线性函数为Y 关于X 的回归直线。
我们可以求出m βββ,,,10 的解。
记),(1'=m βββ ,则]|)([|),(21100m m X X Y E L βββββ+++-=)(22Y D R R b XY XX +'-'+βββ(4.1.11)这里)()(110m m EX EX Y E b βββ+++-= (4.1.12)]))([('--=EX X EX X E R XX⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=)(D ),(Cov ),(Cov ),(Cov ),(Cov211211m m m m X X X X X X X X X DX (4.1.13)),(Cov ,),,(Cov (1'=m XY X Y X Y R(4.1.14)对L (β0,β)求微分(矩阵微商公式AX AX X X2)(='∂∂)得: ⎩⎨⎧==XYXX R R b β0(4.1.15)解得⎪⎩⎪⎨⎧='-=-XYXX R R X E EY 10ˆ)(ˆˆβββ (4.1.16)这里当然假定1-XX R 存在,否则使用广义逆。
此时的预测误差方差是)(ˆ2ˆˆ ]|)ˆˆˆ([|)ˆ,ˆ(21100Y D R R X X Y E L XY XY mm +'-'=+++-=ββββββββXY XX XY Y R R R 12-'-=σ(4.1.17) Y XY XXXY XY R RR σρ/)(211-'=(4.1.18)为复相关系数。
它指出了Y 与多元变量m X X X ,,1 =之间的线性相关程度,是一元相关系数DYY X r XY DX ),(Cov =(4.1.19)的推广。
从条件期望角度我们导出的随机效应回归模型的回归直线表达式,与从最小二乘角度导出的固定效应的回归方程,表达式是等价的,所以从计算角度,我们不怎么区分。
二、方差分量模型概念上段我们建立了随机效应概念,将自变量也视作随机变量,这就可以导出方差分量模型。
方差分量模型研究工作的奠基人是我国最早的统计学家许宝驭马录先生。
还是刚才提到的消费函数回归模型,我们作随机抽样。
考虑居民按职业的分类,如工人、教师、医生、律师、店员等等,记为m i X i ,,1, =,我们从这些职业中随机抽取了n 个样本,则模型可写为m i n j T X b C C ij i i ij ,,1,,,1 ,)(0 ==+-+=ε(4.1.20)这里X i 可看作是第i 种职业对收入的效应。
如果我们事先安排好取哪个职业的,当然X i 是固定效应。
可是我们现在对职业选取是随机的,而且我们还想研究职业效应的方差,这就导入了方差分量模型,因为现在C ij 的方差由两部分组成:22220)(V ar εσσσ+==X ij b C(4.1.21)为了数学符号统一,我们将经济学中的符号改过来,刚才建立的模型是n j m i U Y ij i ij ,,1,,,1 ,11 ==++=εξμ(4.1.22)它有一项固定效应μ,一项随机效应ξ1,一项随机误差ε。
如果还要考虑地区因素对消费的影响,还可以加进第二个随机效应ξ2,于是可得模型εξξμ+++=2211U U Y(4.1.23)这次我们省掉了取值的标记,Y 的方差由三项组成。
一般地,我们建立方差分量模型如下:m m U U X Y ξξβ+++= 11(4.1.24)这里有固定效应向量β,随机效应向量),,,(21'=m ξξξξ(4.1.25)并且将随机误差项ε也并入了随机效应向量去。
设计矩阵X 以及),,,(21m U U U U =(4.1.26)都是已知的。
对于随机效应m i i ,,1, =ξ,合理的假定是⎪⎩⎪⎨⎧==≠==mi D ji E i i j i i ,,1,)(,0),(Cov ,0)(2σξξξξ (4.1.27)当然以后有时还可以考虑ξi 是向量的情况,不过这里假定每个ξi 是一维变量。
记m m i i i V V m i U U V 2121 ,,,1,σσ++=∑='= ,(4.1.28)则方差分量模型可记为∑==)(Var ,)(Y X Y E β(4.1.29)模型的主要任务是要估计固定效应向量β与方差分量22221,,,mσσσ 。
和一般的多元线性回归模型相比,就是待估的方差多了。
通过这些介绍,我们就可以方便地将各种经济方面的普通线性回归模型改造成方差分量模型,当然要根据实际。
第二节 方差分量模型的解法对于方差分量模型⎪⎪⎩⎪⎪⎨⎧∑∆'==+++=∑=⨯⨯⨯⨯⨯⨯⨯i i i m i p m p n m p p n p p n n U U Y X Y E U U X Y m m 21111111)(Var ,)(11σβξξβ (4.2.1)一般都采用二步估计法,首先估计方差分量221,,mσσ ,然后再估计固定效应β。
按照广义最小二乘Y X X X 11ˆ)ˆ(*---∑'∑'=β (4.2.2)其中i i i mi U U '=∑∑=21ˆˆσ(4.2.3)所以方差分量模型解法的关键是估计方差分量。
以下介绍的方法,也都是针对方差分量估计方法而言的。
一、方差分析法先从一个简单的模型结合数据结构形象地说明方法。
考虑模型n j m i Y ij i ij ,,1,,,1 ,0 ==++=εξβ(4.2.4)β为总平均,是固定效应,ξ1,…,ξm是随机效应,j i E j i i ≠==,0),(Cov ,0ξξξ,m i A i ,,1,)(Var 2==σξ。
对于随机误差2)(V ar ,εσεξ=ij ij 。
这个模型如果记作方差分量模型的标准形式是εξβ++=U X Y 0(4.2.5)其中设计阵X =(1,1,…,1)′,随机效应矩阵为mU 1 0 1 1 0 1 00 10 0 1⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡= m k k(4.2.6)我们手中资料只有),,,,,,,(221111m k k k Y Y Y Y Y Y =我们采用(4.2.4)记法方便一些,将资料Y 排成表方差分析主要掌握三点,一是计算组内差、组间差,二是作平方和分解,三是计算各自的自由度。
先计算总平均:ij kj m i Y mk Y ∑∑==⋅⋅=111(4.2.7)总变差(全体资料与总平均的偏差平方和):211)(⋅⋅==-=∑∑Y Y S ij kj m i T(4.2.8)各组平均(各组资料横向相加并平均)m i Y k Y ij kj i ,,1 ,11==∑=⋅(4.2.9)组间差(各组平均数与总平均数的偏差平方和))(11⋅⋅⋅==-=∑∑Y Y S i mi k j A(4.2.10)组内差(各组数据与本组平均数的偏差平方和)211)(⋅==-=∑∑i ij kj m i Y Y S ε(4.2.11)则必有平方和分解εS S S A T +=(4.2.12)将各平方和除以各自的自由度。