多元线性回归与最小二乘估计
- 格式:doc
- 大小:1.44 MB
- 文档页数:22
多元线性回归的计算模型多元线性回归模型的数学表示可以表示为:Y=β0+β1X1+β2X2+...+βkXk+ε,其中Y表示因变量,Xi表示第i个自变量,βi表示第i个自变量的回归系数(即自变量对因变量的影响),ε表示误差项。
1.每个自变量与因变量之间是线性关系。
2.自变量之间相互独立,即不存在多重共线性。
3.误差项ε服从正态分布。
4.误差项ε具有同方差性,即方差相等。
5.误差项ε之间相互独立。
为了估计多元线性回归模型的回归系数,常常使用最小二乘法。
最小二乘法的目标是使得由回归方程预测的值与实际值之间的残差平方和最小化。
具体步骤如下:1.收集数据。
需要收集因变量和多个自变量的数据,并确保数据之间的正确对应关系。
2.建立模型。
根据实际问题和理论知识,确定多元线性回归模型的形式。
3.估计回归系数。
利用最小二乘法估计回归系数,使得预测值与实际值之间的残差平方和最小化。
4.假设检验。
对模型的回归系数进行假设检验,判断自变量对因变量是否显著。
5. 模型评价。
使用统计指标如决定系数(R2)、调整决定系数(adjusted R2)、标准误差(standard error)等对模型进行评价。
6.模型应用与预测。
通过多元线性回归模型,可以对新的自变量值进行预测,并进行决策和提出建议。
多元线性回归模型的计算可以利用统计软件进行,例如R、Python中的statsmodels库、scikit-learn库等。
这些软件包提供了多元线性回归模型的函数和方法,可以方便地进行模型的估计和评价。
在计算过程中,需要注意检验模型的假设前提是否满足,如果不满足可能会影响到模型的可靠性和解释性。
总而言之,多元线性回归模型是一种常用的预测模型,可以分析多个自变量对因变量的影响。
通过最小二乘法估计回归系数,并进行假设检验和模型评价,可以得到一个可靠的模型,并进行预测和决策。
§3.2 多元线性回归模型的估计同一元回归模型的估计一样,多元回归模型参数估计的任务仍有两项:一是求得反映变量之间数量关系的结构参数的估计量jβˆ(j=1,2,…,k );二是求得随机误差项的方差估计2ˆσ。
模型(3.1.1)或(3.1.2)在满足§3.1所列的基本假设的情况下,可以采用普通最小二乘法、最大或然法或者矩估计法估计参数。
一、普通最小二乘估计随机抽取被解释变量和解释变量的n 组样本观测值: k j n i X Y ji i ,2,1,0,,,2,1),,(== 如果样本函数的参数估计值已经得到,则有:Kiki i i i X X X Y ββββˆˆˆˆˆ22110++++= i=1,2,…,n (3.2.1) 那么,根据最小二乘原理,参数估计值应该是下列方程组的解⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧====0ˆ0ˆ0ˆ0ˆ21Q Q Q Q kβ∂∂β∂∂β∂∂β∂∂(3.2.2)其中 2112)ˆ(∑∑==-==ni ii ni iY Y eQ 2122110))ˆˆˆˆ((∑=++++-=ni kik i i iX X X Yββββ (3.2.3) 于是得到关于待估参数估计值的正规方程组:⎪⎪⎪⎩⎪⎪⎪⎨⎧∑=++++∑∑=++++∑∑=++++∑∑=++++∑kii ki ki k i i i i i ki k i i i i i i ki k i i iki k i i X Y X X X X X Y X X X X X Y X X X X Y X X X )ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ(221102222110112211022110ββββββββββββββββ (3.2.4) 解该(k+1)个方程组成的线性代数方程组,即可得到(k+1)个待估参数的估计值k j j,,2,1,0,ˆ =β。
(3.2.4)式的矩阵形式如下:⎪⎪⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫⎝⎛∑∑∑∑∑∑∑∑n kn k k n k ki iki ki ki i ii kii Y Y Y X X X X X X X X X XXX XX X Xn212111211102112111111ˆˆˆβββ即: Y X βX)X ('='ˆ (3.2.5) 由于X X '满秩,故有Y X X X β''=-1)(ˆ (3.2.6) 将上述过程用矩阵表示如下:根据最小二乘原理,需寻找一组参数估计值βˆ,使得残差平方和 )ˆ()ˆ(12βX Y βX Y e e -'-='==∑=ni i e Q 最小。
线性回归与最小二乘法线性回归是一种常用的统计分析方法,也是机器学习领域的基础之一。
在线性回归中,我们通过寻找最佳拟合直线来对数据进行建模和预测。
最小二乘法是线性回归的主要方法之一,用于确定最佳拟合直线的参数。
1. 线性回归的基本原理线性回归的目标是找到一条最佳拟合直线,使得预测值与实际值之间的误差最小。
我们假设线性回归模型的形式为:Y = β₀ + β₁X₁ +β₂X₂ + … + βₙXₙ + ε,其中Y是因变量,X₁、X₂等是自变量,β₀、β₁、β₂等是回归系数,ε是误差项。
2. 最小二乘法最小二乘法是一种求解线性回归参数的常用方法。
它的基本思想是使所有样本点到拟合直线的距离之和最小化。
具体来说,我们需要最小化残差平方和,即将每个样本点的预测值与实际值之间的差的平方求和。
3. 最小二乘法的求解步骤(1)建立线性回归模型:确定自变量和因变量,并假设它们之间存在线性关系。
(2)计算回归系数:使用最小二乘法求解回归系数的估计值。
(3)计算预测值:利用求得的回归系数,对新的自变量进行预测,得到相应的因变量的预测值。
4. 最小二乘法的优缺点(1)优点:最小二乘法易于理解和实现,计算速度快。
(2)缺点:最小二乘法对异常点敏感,容易受到离群值的影响。
同时,最小二乘法要求自变量与因变量之间存在线性关系。
5. 线性回归与其他方法的比较线性回归是一种简单而强大的方法,但并不适用于所有问题。
在处理非线性关系或复杂问题时,其他方法如多项式回归、岭回归、lasso回归等更适用。
6. 实际应用线性回归及最小二乘法广泛应用于各个领域。
在经济学中,线性回归用于预测GDP增长、消费者支出等经济指标。
在医学领域,线性回归被用于预测疾病风险、药物剂量等。
此外,线性回归还可以应用于电力负荷预测、房价预测等实际问题。
总结:线性回归和最小二乘法是统计学和机器学习中常用的方法。
线性回归通过拟合一条最佳直线,将自变量与因变量之间的线性关系建模。
偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。
近十年来,它在理论、方法和应用方面都得到了迅速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。
在普通多元线形回归的应用中,我们常受到许多限制。
最典型的问题就是自变量之间的多重相关性。
如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。
变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。
在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。
这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、偏最小二乘回归的建模策略\原理\方法1.1建模原理设有 q个因变量{}和p自变量{}。
为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表X={}和.Y={}。
线性回归最小二乘法推导线性回归最小二乘法是一种概率统计模型,用于估计一组数据之间的回归关系。
它根据已知的自变量和因变量之间观察数据,来计算出一个最优的参数用于预测新的观察数据。
线性回归最小二乘法通常应用于研究特定变量的影响因素分析和预测模型的有效性检验。
线性回归模型的推导是根据最小二乘法来完成的,最小二乘法可以用来估计未知参数的模型。
它通常是使用欠拟合的模型,力求尽可能的将模型的结果与真实值拟合的最好。
在实际情况中,最小二乘法寻找形如。
∑i(y-y^)^^2最小的模型,其中y,y^表示真实值和模型值,最小二乘法可以用来估计线性回归参数。
线性回归最小二乘法的推导是从拟合函数的研究开始的,拟合函数的构造也是有用的,这里介绍一下线性模型的拟合函数。
拟合函数定义为,y=f(x)=a+b∗ x,其中a,b是参数,x是观测值,a,b分别表示偏移量和斜率。
根据最小二乘法,拟合函数的最优解是使∑i(y-y^)^^2最小的模型参数。
令M=∑i(y-y^)^^2,求选定拟合函数参数a,b,使其使M函数最小,即对M求导数。
在实际求解过程中,由于拟合函数中只含有一维的参数,可将M表示为M=∑r=1^N(t-t^)^^2,t^=a+b^{符号(X)},其中N是观测数据的个数,X是观测变量。
利用泰勒展开式扩大M求导数,把M改写为M=∑r=1^N(t-t^)^2=∑r=1^N(t-a-b^{符号(X)})^2,对参数a,b求导。
令∂M/∂a=0,可以得出a=∑r=1^NYi-∑r=1^NY^i/N,∂M/∂b=0,可以得出b=∑r=1^N (X)Yi-∑r=1^NX^iY^i/∑r=1^NX^i,将代入原有拟合函数,这样就求出了拟合函数的参数。
最后,它的应用也在不断扩大,可以用来检验经济模型的效用,以及对自变量和因变量之间关系的影响因素分析,不仅在许多学科学习中有重要意义,也在实际应用中发挥了重要作用。
因此,线性回归最小二乘法以其简洁高效的估计和预测功能得到了广泛的应用。
线性回归和最小二乘法线性回归是一种常见的统计分析方法,用于建立自变量和因变量之间的线性关系模型。
而最小二乘法则是线性回归的一种常用求解技术。
本文将详细介绍线性回归和最小二乘法的原理、应用和计算方法。
一、线性回归的原理线性回归假设自变量和因变量之间存在一个线性函数关系,即y = α + βx,其中α是截距,β是斜率。
线性回归的目标是找到最佳的α和β,使得模型能够准确地描述数据。
二、最小二乘法的原理最小二乘法是一种优化方法,用于通过最小化误差的平方和来确定回归系数。
假设有n个样本数据,标记为{(x1,y1),(x2,y2),...,(xn,yn)},其中xi是自变量,yi是因变量。
最小二乘法的目标是使所有样本点到回归直线的距离之和最小化,即最小化误差E = Σ(yi - α - βxi)²。
三、线性回归的应用线性回归广泛应用于各个领域,特别是经济学、金融学和社会科学中。
它可以用来分析自变量和因变量之间的关系,预测未来的趋势和趋势的变化,评估变量对因变量的影响程度等。
四、最小二乘法的计算步骤1. 计算自变量和因变量的均值,分别记为x_mean和y_mean。
2. 计算自变量和因变量的差值与均值的乘积之和,分别记为Sxy。
3. 计算自变量的差值的平方和,记为Sxx。
4. 计算回归系数的估计值,β = Sxy / Sxx。
5. 计算截距的估计值,α = y_mean - β * x_mean。
6. 得到线性回归方程,y = α + βx。
五、线性回归的评估评估线性回归模型的好坏可以用均方误差(MSE)和决定系数(R²)来衡量。
MSE越小,表示模型拟合效果越好;R²越接近1,表示自变量对因变量的解释程度越高。
六、线性回归的局限性线性回归的前提是自变量和因变量之间存在线性关系,如果关系是非线性的,线性回归模型将失效。
此外,线性回归对异常值敏感,如果数据中存在异常值,模型的预测结果可能会受到影响。
最小二乘法求解线性回归问题最小二乘法是回归分析中常用的一种模型估计方法。
它通过最小化样本数据与模型预测值之间的误差平方和来拟合出一个线性模型,解决了线性回归中的参数估计问题。
在本文中,我将详细介绍最小二乘法在线性回归问题中的应用。
一、线性回归模型在介绍最小二乘法之前,先了解一下线性回归模型的基本形式。
假设我们有一个包含$n$个观测值的数据集$(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)$,其中$x_i$表示自变量,$y_i$表示因变量。
线性回归模型的一般形式如下:$$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_px_p+\epsilon$$其中,$\beta_0$表示截距,$\beta_1,\beta_2,\dots,\beta_p$表示自变量$x_1,x_2,\dots,x_p$的系数,$\epsilon$表示误差项。
我们希望通过数据集中的观测值拟合出一个线性模型,即确定$\beta_0,\beta_1,\dots,\beta_p$这些未知参数的值,使得模型对未知数据的预测误差最小化。
二、最小二乘法的思想最小二乘法是一种模型拟合的优化方法,其基本思想是通过最小化优化问题的目标函数来确定模型参数的值。
在线性回归问题中,我们通常采用最小化残差平方和的方式来拟合出一个符合数据集的线性模型。
残差代表观测值与模型估计值之间的差异。
假设我们有一个数据集$(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)$,并且已经选定了线性模型$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_p x_p$。
我们希望选择一组系数$\beta_0,\beta_1,\dots,\beta_p$,使得模型对数据集中的观测值的预测误差最小,即最小化残差平方和(RSS):$$RSS=\sum_{i=1}^n(y_i-\hat{y}_i)^2$$其中,$y_i$表示第$i$个观测值的实际值,$\hat{y}_i$表示该观测值在当前模型下的预测值。
多元线性回归分析多元线性回归分析是一种常用的统计方法,用于研究多个自变量与因变量之间的关系。
它可以帮助我们理解多个因素对于一个目标变量的影响程度,同时也可以用于预测和解释因变量的变化。
本文将介绍多元线性回归的原理、应用和解读结果的方法。
在多元线性回归分析中,我们假设因变量与自变量之间存在线性关系。
具体而言,我们假设因变量是自变量的线性组合,加上一个误差项。
通过最小二乘法可以求得最佳拟合直线,从而获得自变量对因变量的影响。
多元线性回归分析的第一步是建立模型。
我们需要选择一个合适的因变量和若干个自变量,从而构建一个多元线性回归模型。
在选择自变量时,我们可以通过领域知识、经验和统计方法来确定。
同时,我们还需要确保自变量之间没有高度相关性,以避免多重共线性问题。
建立好模型之后,我们需要对数据进行拟合,从而确定回归系数。
回归系数代表了自变量对因变量的影响大小和方向。
通过最小二乘法可以求得使残差平方和最小的回归系数。
拟合好模型之后,我们还需要进行模型检验,以评估模型拟合的好坏。
模型检验包括对回归方程的显著性检验和对模型的拟合程度进行评估。
回归方程的显著性检验可以通过F检验来完成,判断回归方程是否显著。
而对模型的拟合程度进行评估可以通过判断决定系数R-squared的大小来完成。
解读多元线性回归结果时,首先需要看回归方程的显著性检验结果。
如果回归方程显著,说明至少一个自变量对因变量的影响是显著的。
接下来,可以观察回归系数的符号和大小,从中判断自变量对因变量的影响方向和相对大小。
此外,还可以通过计算标准化回归系数来比较不同自变量对因变量的相对重要性。
标准化回归系数表示自变量单位变化对因变量的单位变化的影响程度,可用于比较不同变量的重要性。
另外,决定系数R-squared可以用来评估模型对观测数据的拟合程度。
R-squared的取值范围在0到1之间,越接近1说明模型对数据的拟合越好。
但需要注意的是,R-squared并不能反映因果关系和预测能力。
多元线性回归最小二乘估计的方程组多元线性回归最小二乘估计的方程组
多元线性回归是统计学中最常用的概率建模方法之一,可以用来从一些自变量预测一个因变量的值。
它基于最小二乘估计(OLS)方法,用拟合线性回归方程来表示自变量与因变量之间的关系。
基本上,最小二乘估计是指在观察数据中,寻找一组参数值,使得拟合线形回归模型与观察数据之间的差异最小的最优化过程。
做此估计就要确定一个系数矩阵(称为残差和),使得残差平方和最小。
这样的残差和就是多元线性回归最小二乘估计方程(OLS),可以用来拟合回归方程模型,并使拟合数据和观察数据之间的差异最小。
多元线性回归方程可以表示为:
(y = a_1* x_1 + a_2* x_2 + ... + a_n* x_n)
其中,y表示回归方程的解释变量,x1、x2、...、xn表示自变量,a1、
a2、...、an表示最小二乘估计中的系数。
由此可以看出,多元线性回归是一种有效的技术,它可以用来从一些观察数据中推导出一个回归方程,并使用最小二乘估计方程将它们拟合在一起,从而预测一个因变量的值。
它也可以应用于其他模型,如分类。
它是统计建模和数据预测的重要方法,可以应用于各种问题,以揭示存在的联系,并推导出预测的关系。
多元线性回归与最小二乘估计1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:y t = β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1 + u t(1.1)其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。
对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。
u t 代表众多影响y t 变化的微小因素。
使y t 的变化偏离了E( y t ) =多元线性回归与最小二乘估计1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:y t = β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1 + u t(1.1)其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。
对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。
u t 代表众多影响y t 变化的微小因素。
使y t 的变化偏离了E( y t ) =β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1决定的k 维空间平面。
当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为y 1 =β0 +β1x 11 +β2x 12 +…+βk - 1x 1 k -1 + u 1, 经济意义:x t j 是y t 的重要解释变量。
y 2 =β0 +β1x 21 +β2x 22 +…+βk - 1x 2 k -1 + u 2, 代数意义:y t 与x t j 存在线性关系。
最小二乘估计原理最小二乘估计原理是一种常用的参数估计方法,它在统计学和经济学等领域有着广泛的应用。
最小二乘估计原理的核心思想是通过最小化观测值与估计值之间的残差平方和来确定参数的估计值,从而使得模型拟合数据的效果最佳。
在本文中,我们将详细介绍最小二乘估计原理的基本概念、应用场景以及具体的计算方法。
最小二乘估计原理的基本概念。
最小二乘估计原理的基本思想是通过最小化残差平方和来确定参数的估计值。
在线性回归模型中,我们通常假设因变量与自变量之间存在线性关系,即Y = β0 + β1X + ε,其中Y表示因变量,X表示自变量,β0和β1分别表示截距和斜率,ε表示误差项。
最小二乘估计原理要求通过最小化观测值与估计值之间的残差平方和来确定参数的估计值,即使得残差平方和达到最小值时,参数的估计值即为最小二乘估计值。
最小二乘估计原理的应用场景。
最小二乘估计原理广泛应用于线性回归模型的参数估计中。
在实际应用中,我们经常需要根据样本数据来估计模型的参数,从而进行预测或者推断。
最小二乘估计原理可以帮助我们确定最优的参数估计值,使得模型能够最好地拟合观测数据。
除了线性回归模型,最小二乘估计原理还可以应用于其他类型的模型参数估计中,例如非线性模型、多元回归模型等。
最小二乘估计的具体计算方法。
在实际应用中,最小二乘估计的具体计算方法通常包括以下几个步骤,首先,建立模型,确定自变量和因变量之间的关系;其次,利用样本数据来估计模型的参数,即通过最小化残差平方和来确定参数的估计值;最后,进行参数估计的检验,判断参数的估计结果是否显著。
在具体计算过程中,通常需要利用计量经济学中的相关工具和方法,例如OLS(Ordinary Least Squares)估计方法、假设检验、置信区间估计等。
最小二乘估计原理的优缺点。
最小二乘估计原理作为一种常用的参数估计方法,具有以下优点,首先,计算简单,易于理解和应用;其次,具有较好的数学性质和统计性质,例如无偏性、有效性等;最后,适用范围广泛,可以应用于各种类型的模型参数估计中。
多元线性回归与最小二乘估计1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:y t = β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1 + u t(1.1)其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。
对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。
u t 代表众多影响y t 变化的微小因素。
使y t 的变化偏离了E( y t ) =多元线性回归与最小二乘估计1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:y t = β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1 + u t(1.1)其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。
对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。
u t 代表众多影响y t 变化的微小因素。
使y t 的变化偏离了E( y t ) =β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1决定的k 维空间平面。
当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为y 1 =β0 +β1x 11 +β2x 12 +…+βk - 1x 1 k -1 + u 1, 经济意义:x t j 是y t 的重要解释变量。
y 2 =β0 +β1x 21 +β2x 22 +…+βk - 1x 2 k -1 + u 2, 代数意义:y t 与x t j 存在线性关系。
……….. 几何意义:y t 表示一个多维平面。
y T =β0 +β1x T 1 +β2x T 2 +…+βk - 1x T k -1 + u T , (1.2) 此时y t 与x t i 已知,βj 与 u t 未知。
j k j k T TjT k T k T (T )(k)(T (T k )x x x y u x x x y u x x x y u b b b ----创?´骣骣骣骣÷鼢?ç珑?÷鼢?ç珑?÷鼢?ç珑?÷鼢?ç珑?÷鼢?ç珑?÷鼢?=+ç÷珑?鼢?ç÷珑?鼢?÷ç鼢?珑?÷鼢?ç珑?÷鼢?ç珑?鼢?珑?÷ç桫桫桫桫111111012122121211111111)1(1.3)Y = X β+ u , (1.4) 为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。
假定 ⑴ 随机误差项u t 是非自相关的,每一误差项都满足均值为零,方差 2相同且为有限值,即E(u ) = 0 = 骣÷ç÷ç÷ç÷ç÷ç÷ç÷÷ç桫00, Var (u ) = E(u ˆu ˆ' ) =σ2I = σ2骣÷ç÷ç÷ç÷ç÷ç÷ç÷÷ç桫10000001.假定 ⑵ 解释变量与误差项相互独立,即 E(X 'u ) = 0.假定 ⑶ 解释变量之间线性无关。
rk(X 'X ) = rk(X ) = k . 其中rk (⋅)表示矩阵的秩。
假定⑷ 解释变量是非随机的,且当T → ∞ 时T – 1X 'X → Q .其中Q 是一个有限值的非退化矩阵。
最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。
代数上是求极值问题。
min S = (Y - X βˆ)' (Y - X βˆ) = Y 'Y -βˆ'X 'Y - Y ' X βˆ +βˆ'X 'X βˆ = Y 'Y - 2βˆ'X 'Y + βˆ'X 'X βˆ. (1.5) 因为Y 'X βˆ是一个标量,所以有Y 'X βˆ = βˆ'X 'Y 。
(1.5) 的一阶条件为: ˆb¶¶S = - 2X 'Y + 2X 'X βˆ= 0 (1.6) 化简得X 'Y = X 'X βˆ 因为 (X 'X ) 是一个非退化矩阵(见假定⑶),所以有βˆ= (X 'X )-1 X 'Y (1.7)因为(1.5)的二阶条件ˆˆbb ¶抖2S = 2 X 'X 0(1.8)得到满足,所以 (1.7) 是 (1.5) 的解 。
因为X 的元素是非随机的,(X 'X ) -1X 是一个常数矩阵,则βˆ是Y 的线性组合,为线性估计量。
求出βˆ,估计的回归模型写为 Y = X βˆ+ u ˆ (1.9) 其中βˆ= (0ˆβ 1ˆβ … k ˆb -1)' 是β的估计值列向量,u ˆ= (Y - X βˆ) 称为残差列向量。
因为 uˆ = Y - X βˆ= Y - X (X 'X )-1X 'Y = [I - X (X 'X )-1 X ' ]Y (1.10) 所以uˆ也是Y 的线性组合。
βˆ的期望和方差是E(βˆ) = E[(X 'X )-1 X 'Y ] = E[(X 'X )-1X '(X β+ u )] =β+ (X 'X )-1X ' E(u ) =β (1.11)Var(βˆ) = E[(βˆ–β) (βˆ–β)']= E[(X 'X )-1X ' u u ' X (X 'X )-1] = E[(X 'X )-1X ' 2I X (X 'X )-1] = σ 2 (X 'X )-1 . (1.12)高斯—马尔可夫定理:若前述假定条件成立,OLS 估计量是最佳线性无偏估计量。
βˆ具有无偏性。
βˆ具有最小方差特性。
βˆ具有一致性,渐近无偏性和渐近有效性。
2. 残差的方差s 2 = uˆ'u ˆ/ (T - k ) (1.13) s 2是σ 2的无偏估计量,E(s 2 ) =σ2。
βˆ的估计的方差协方差矩阵是Var Ù(βˆ) = s 2 (X 'X )-1 (1.14) 3. 多重确定系数(多重可决系数)Y = X βˆ+ u ˆ=Y ˆ + u ˆ (1.15) 总平方和SST =Tt t (y y )=-å21= Y 'Y - T 2y , (1.16) 其中y 是y t 的样本平均数,定义为y = T t t (y )/T =å1。
回归平方和为SSR =Tt t ˆ(y y )=-å21= Y ˆ'Y ˆ- T 2y (1.17) 其中y 的定义同上。
残差平方和为SSE =Tt t t ˆ(y y )=-å21= Tt t ˆu =å21= u ˆ'u ˆ (1.18) 则有如下关系存在,SST = SSR + SSE (1.19)R 2= 2ˆˆSSR Ty SST -=¢2TyY'Y Y Y - (1.20) 显然有0 < R 2 < 1。
R 21,拟合优度越好。
4. 调整的多重确定系数当解释变量的个数增加时,通常R 2不下降,而是上升。
为调整因自由度减小带来的损失,又定义调整的多重确定系数2R 如下: 2R = 1 -SSE /(T k )T SST SSR ()()SST /(T )T k SST ---=---111 = 1 - T (R )T k---211 (1.21)5. OLS 估计量的分布若u ~ N (0,σ 2I ) ,则每个u t 都服从正态分布。
于是有Y ~ N (X β, σ 2I ) (1.22)因βˆ也是u 的线性组合(见公式1.7),依据(1.11)和(1.12)有βˆ~N (β, σ 2(X 'X )-1 ) (1.23) 6. 方差分析与F 检验与SST 相对应,自由度T -1也被分解为两部分,(T -1)= (k -1) + (T - k ) (1.24)回归均方定义为MSR =SSR k -1,误差均方定义为MSE = SSET k- 表1.1 方差分析表方差来源 平方和自由度 均方 回归 SSR =Yˆ'Y ˆ-T y 2 k -1 MSR = SSR / (k -1) 误差 SSE = uˆ'u ˆ T -k MSE = SSE / (T -k ) 总和SST = Y 'Y - T y 2T -1H 0: β1=β2 = … =βk -1 = 0;H 1: βj 不全为零F =MSE MSR= SSR /(k )SSE /(T k )--1 ~ F (k -1,T -k ) (1.25) 设检验水平为,则检验规则是,若 F <F α(k -1,T -k ),接受H 0;若 F > F (k -1,T -k ) ,拒绝H 0。
0 F α (k -1, T -k ) -t α(T-k) 0 t α(T-k)F 检验示意图 t 检验示意图7.t 检验H 0:βj = 0, (j = 1, 2, …, k -1), H 1:jt=j jˆˆˆˆs()b b b b =~ t (T -k )(1.26)判别规则:若 t t α(T -k ) 接受H 0;若 t > t α(T -k ) 拒绝H 0。
8.βi 的置信区间(1) 全部i 的联合置信区间接受F = k1(β-βˆ)' (X 'X ) (β-βˆ) / s 2 F(k ,T -k )(1.27)(β-βˆ)' (X 'X ) (β-βˆ) <s 2 k F (k , T -k ),它是一个k 维椭球。