计量经济学·多元线性回归模型
- 格式:doc
- 大小:2.21 MB
- 文档页数:12
多元线性回归模型多元线性回归模型是一种广泛应用于统计学和机器学习领域的预测模型。
它通过使用多个自变量来建立与因变量之间的线性关系,从而进行预测和分析。
在本文中,我们将介绍多元线性回归模型的基本概念、应用场景以及建模过程。
【第一部分:多元线性回归模型的基本概念】多元线性回归模型是基于自变量与因变量之间的线性关系进行建模和预测的模型。
它假设自变量之间相互独立,并且与因变量之间存在线性关系。
多元线性回归模型的数学表达式如下:Y = β0 + β1X1 + β2X2 + … + βnXn + ε其中,Y表示因变量,X1、X2、…、Xn表示自变量,β0、β1、β2、…、βn表示回归系数,ε表示误差项。
回归系数表示自变量对因变量的影响程度,误差项表示模型无法解释的部分。
【第二部分:多元线性回归模型的应用场景】多元线性回归模型可以应用于各种预测和分析场景。
以下是一些常见的应用场景:1. 经济学:多元线性回归模型可以用于预测GDP增长率、失业率等经济指标,揭示不同自变量对经济变量的影响。
2. 医学研究:多元线性回归模型可以用于预测患者的生存时间、治疗效果等医学相关指标,帮助医生做出决策。
3. 市场研究:多元线性回归模型可以用于预测产品销量、市场份额等市场相关指标,帮助企业制定营销策略。
4. 社会科学:多元线性回归模型可以用于研究教育水平对收入的影响、家庭背景对孩子成绩的影响等社会科学问题。
【第三部分:多元线性回归模型的建模过程】建立多元线性回归模型的过程包括以下几个步骤:1. 数据收集:收集自变量和因变量的数据,确保数据的准确性和完整性。
2. 数据清洗:处理缺失值、异常值和离群点,保证数据的可靠性和一致性。
3. 特征选择:根据自变量与因变量之间的相关性,选择最相关的自变量作为模型的输入特征。
4. 模型训练:使用收集到的数据,利用最小二乘法等统计方法估计回归系数。
5. 模型评估:使用误差指标(如均方误差、决定系数等)评估模型的拟合程度和预测性能。
第五章 多元线性回归模型在第四章中,我们讨论只有一个解释变量影响被解释变量的情况,但在实际生活中,往往是多个解释变量同时影响着被解释变量。
需要我们建立多元线性回归模型。
一、多元线性模型及其假定 多元线性回归模型的一般形式是i iK K i i i x x x y εβββ++++= 2211令列向量x 是变量x k ,k =1,2,的n 个观测值,并用这些数据组成一个n ×K 数据矩阵X ,在多数情况下,X 的第一列假定为一列1,则β1就是模型中的常数项。
最后,令y 是n 个观测值y 1, y 2, …, y n 组成的列向量,现在可将模型写为:εββ++=K K x x y 11构成多元线性回归模型的一组基本假设为 假定1. εβ+=X y我们主要兴趣在于对参数向量β进行估计和推断。
假定2. ,0][][][][21=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n E E E E εεεε 假定3. n I E 2][σεε='假定4. 0]|[=X E ε我们假定X 中不包含ε的任何信息,由于)],|(,[],[X E X Cov X Cov εε= (1)所以假定4暗示着0],[=εX Cov 。
(1)式成立是因为,对于任何的双变量X ,Y ,有E(XY)=E(XE(Y|X)),而且])')|()([(])')((),(EY X Y E EX X E EY Y EX X E Y X Cov --=--=))|(,(X Y E X Cov =这也暗示 βX X y E =]|[假定5 X 是秩为K 的n ×K 随机矩阵 这意味着X 列满秩,X 的各列是线性无关的。
在需要作假设检验和统计推断时,我们总是假定: 假定6 ],0[~2I N σε 二、最小二乘回归 1、最小二乘向量系数采用最小二乘法寻找未知参数β的估计量βˆ,它要求β的估计βˆ满足下面的条件 22min ˆ)ˆ(ββββX y X y S -=-∆ (2)其中()()∑∑==-'-=⎪⎪⎭⎫ ⎝⎛-∆-nj Kj j ij i X y X y x y X y 1212ββββ,min 是对所有的m 维向量β取极小值。
计量经济学·多元线性回归模型2006年 217656.6 77597.2 63376.86 2007年 268019.4 93563.6 73300.1 2008年 316751.7 100394.94 79526.53 2009年 345629.2 82029.69 68618.37 2010年 408903 107022.84 94699.3 2011年 484123.5 123240.56 113161.392012年 534123 129359.3 114801 2013年 588018.8 137131.4 121037.5 2014年636138.7143911.66120422.84数据来源:国家统计局三、模型的检验及结果的解释、评价 (一)OLS 法的检验 相关系数:Y X1 X2 Y 10.97999191759670260.983524229450628 X1 0.9799919175967026 1 0.9975652794446187X20.9835242294506280.99756527944461871线性图:100,000200,000300,000400,000500,000600,000700,000YX1X2估计参数:Dependent Variable: YMethod: Least SquaresDate: 12/14/15 Time: 14:47Sample: 1985 2014Included observations: 30Variable Coefficient Std. Error t-Statistic Prob.C 3775.3193593260248769.92804671830.43048464471025450.6702600664360232X1 -0.91272630855511891.938518631883585-0.47083700591944140.6415389475333828X2 5.522785592511612.2548570541426052.4492841275083020.021087030146243R-squared 0.9675860494429319 Mean dependent var173871.8233333334Adjusted R-squared 0.9651850160683343 S.D. dependent var187698.4414104575S.E. of regression 35022.22758863741 Akaike info criterion23.8599929764685Sum squared resid 33117023482.29852 Schwarz criterion24.00011271463471Log likelihood -354.8998946470274 Hannan-Quinn criter.23.90481848460881F-statistic 402.9873385683694 Durbin-Watson stat0.5432849836158895Prob(F-statistic) 7.850214650 723685e-21统计检验:(1)拟合优度:从上表可以得到R2=0.9675860494429319,修正后的可决系数R2=0.9651850160683343,这说明模型对样本的拟合很好。
(2)F检验:针对H0:(二)多重共线性的检验及修正相关系数矩阵:X1 X2X1 1 0.9975652794446187X2 0.9975652794446187 1辅助回归的R2值Dependent Variable: X1Method: Least SquaresDate: 12/14/15 Time: 15:13Sample: 1985 2014Included observations: 30Variable Coefficient Std. Error t-Statistic Prob.C -236.1503079858336853.796869002943-0.27658839773166180.7841276813528842X2 1.1603536176166710.015330102952961675.691182321284056.205455045312624e-34R-squared 0.9951364867534203 Mean dependent var43924.96633333334Adjusted R-squared 0.9949627898517566 S.D. dependent var48106.05415975261S.E. of regression 3414.245696799649 Akaike info criterion19.17364126464171Sum squared resid 326398062.9872178 Schwarz criterion19.26705442341918Log likelihood -285.6046189696256 Hannan-Quinn criter.19.20352493673524F-statistic 5729.155081193856 Durbin-Watson stat0.730903182658975Prob(F-statistic) 6.205455045 312711e-34因为方差扩大因子VIF大于等于10 为204.081,所以存在严重的多重共线性。
对多重共线性的处理:Dependent Variable: LOG(Y)Method: Least SquaresDate: 12/14/15 Time: 15:35Sample: 1985 2014Included observations: 30Variable Coefficient Std. Error t-Statistic Prob.C 3.2221181949992160.233348310985516513.808191631604349.378486825750091e-14LOG(X1) 0.29961479256469490.23109796252290661.2964839209043080.2057807637271318LOG(X2) 0.53925469393756130.24855479727493982.169560595288220.03901090355174436R-squared 0.9877359836279073 Mean dependent var11.38310574067848Adjusted R-squared 0.9868275379707153 S.D. dependent var1.306196606830758S.E. of regression 0.1499139436548128 Akaike info criterion-0.8628711662239941Sum squared resid 0.6068031435577368 Schwarz criterion-0.7227514280577785Log likelihood 15.94306749335991 Hannan-Quinn criter.-0.8180456580836856F-statistic 1087.28130935309 Durbin-Watson stat0.4125950217515378Prob(F-statistic) 1.572322907 613123e-26检验模型的异方差:(一)图形法.00.01.02.03.04.05.06.07.08X1E 2.00.01.02.03.04.05.06.07.08X2E 2(goldfeld-Quandt 检验) Dependent Variable: Y Method: Least Squares Date: 12/14/15 Time: 16:04 Sample: 1 11Included observations: 11VariableCoefficientStd. Error t-StatisticProb.C5479.8790801364.28929584.01665475000.00385909682394 68848 41509 8436432651X1 1.4331353437969051.7592030257396050.81465034042582160.4388484070935154X2 3.2482294959499731.9835618267750021.6375741114312250.1401455299675676R-squared 0.9848299439189845 Mean dependent var25135.82727272728Adjusted R-squared 0.9810374298987306 S.D. dependent var16782.16114325512S.E. of regression 2310.981594158292 Akaike info criterion18.55573317233263Sum squared resid 42725087.42830722 Schwarz criterion18.664250064914Log likelihood -99.05653244782944 Hannan-Quinn criter.18.48732847210918F-statistic 259.6773376866937 Durbin-Watson stat2.590461609402877Prob(F-statistic) 5.296009374 728331e-08Dependent Variable: YMethod: Least SquaresDate: 12/14/15 Time: 16:05Sample: 20 30Included observations: 11Variable Coefficient Std. Error t-Statistic Prob.C -131209.061546085344951.25277685769-2.9189189052732220.01932324601265213X1 0.90801015214794812.5137156596208070.36122230001340770.7272868120760894X2 4.8280901698092332.8182139453930281.713173755917920.1250330211123522R-squared 0.9492597452885157 Mean dependent var376906.7363636364Adjusted R-squared 0.9365746816106446 S.D. dependent var165542.7249904584S.E. of regression 41690.91509980208 Akaike info criterion24.34095492221962Sum squared resid 1390505921 Schwarz criterion 24.44947184.87124 14801Log likelihood -130.8752520722079 Hannan-Quinn criter.24.27255022199618F-statistic 74.8328719030782 Durbin-Watson stat2.016741299693539Prob(F-statistic) 6.628428440 105899e-06(三)WHITE检验Heteroskedasticity Test: WhiteF-statistic 8.065639360788028 Prob. F(5,24)0.0001401031747031907Obs*R-squared 18.80739651082681 Prob. Chi-Square(5)0.002087524503307292Scaled explained SS 24.48540340808745 Prob. Chi-Square(5)0.0001751046944911128Test Equation:Dependent Variable: RESID^2Method: Least SquaresDate: 12/14/15 Time: 16:18Sample: 1 30Included observations: 30Variable Coefficient Std. Error t-Statistic Prob.C -172076058.1206036441097474.8325652-0.39010891682370530.6998968080763495X1 -434816.1859048981264665.0535233542-1.6428923279307430.1134443283056973X1^2 -14.0260807141404617.43640515048546-0.80441355847652770.4290549805564741X1*X2 41.0314734815675239.804889285300281.0308149128986580.3129044598250328X2 532589.0240447041306551.76908160161.7373542669164410.09514332316116304X2^2 -28.6178784222710922.88697651710863-1.2504001304356840.2232078922692591R-squared0.6269132170275604 Mean dependent var 1103900782.743284 Adjusted R-squared 0.5491868039083021 S.D. dependent var 2013044843.410424 S.E. of regression 1351611130.658886 Akaike info criterion 45.06385981098074 Sum squared resid 4.384446356450382e+19 Schwarz criterion 45.34409928731318 Log likelihood -669.9578971647112 Hannan-Quinn criter. 45.15351082726136 F-statistic 8.065639360788028 Durbin-Watson stat 1.62042765626833Prob(F-statistic) 0.0001401031747031907所以存在异方差 异方差修正: 自相关的检验与修正: 一 图示检验法-80,000-40,000040,00080,000120,0000200,000400,000600,000800,000Residual ActualFittedDW 检验DW 0.54328498 对样本容量为30、两个解释变量的模型,5%的显著水平,查DW 统计表可知,d=1.567 l d=1.284 模型中DW<l d,显然模型u中有自相关。