第三章回归分析原理
- 格式:doc
- 大小:357.03 KB
- 文档页数:12
第三章 一元线性回归模型一、预备知识(一)相关概念对于一个双变量总体,若由基础理论,变量和变量之间存在因果),(i i x y x y 关系,或的变异可用来解释的变异。
为检验两变量间因果关系是否存在、x y 度量自变量对因变量影响的强弱与显著性以及利用解释变量去预测因变量x y x ,引入一元回归分析这一工具。
y 将给定条件下的均值i x i yi i i x x y E 10)|(ββ+=(3.1)定义为总体回归函数(PopulationRegressionFunction,PRF )。
定义为误差项(errorterm ),记为,即,这样)|(i i i x y E y -i μ)|(i i i i x y E y -=μ,或i i i i x y E y μ+=)|(i i i x y μββ++=10(3.2)(3.2)式称为总体回归模型或者随机总体回归函数。
其中,称为解释变量x (explanatory variable )或自变量(independent variable );称为被解释y 变量(explained variable )或因变量(dependent variable );误差项解释μ了因变量的变动中不能完全被自变量所解释的部分。
误差项的构成包括以下四个部分:(1)未纳入模型变量的影响(2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。
在总体回归模型(3.2)中参数是未知的,是不可观察的,统计计10,ββi μ量分析的目标之一就是估计模型的未知参数。
给定一组随机样本,对(3.1)式进行估计,若的估计量分别记n i y x i i ,,2,1),,( =10,),|(ββi i x y E 为,则定义3.3式为样本回归函数^1^0^,,ββi y ()i i x y ^1^0^ββ+=n i ,,2,1 =(3.3)注意,样本回归函数随着样本的不同而不同,也就是说是随机变量,^1^0,ββ它们的随机性是由于的随机性(同一个可能对应不同的)与的变异共i y i x i y x 同引起的。
第三章_回归分析基本方法最小二乘法回归分析是统计学中一种通过建立变量之间的关系模型来预测或解释变量之间关系的方法。
最常用的回归分析方法之一是最小二乘法。
最小二乘法是一种通过最小化观测值与预测值之间的误差平方和来估计模型参数的方法。
最小二乘法的基本原理是寻找一条直线或曲线,使得该直线或曲线上的点到各观测值的距离之和最小。
最小二乘法的数学表达式可以表示为:$$\min_{\beta_0,\beta_1,...,\beta_k} \sum_{i=1}^{n}(y_i -(\beta_0 + \beta_1x_{i1} + ... + \beta_kx_{ik}))^2$$其中,$y_i$为观测值,$x_{ij}$为自变量,$\beta_0$为截距,$\beta_1$到$\beta_k$为模型参数。
在实际应用中,最小二乘法可以应用于各种回归模型,如简单线性回归、多元线性回归、非线性回归等。
简单线性回归是最简单的回归模型,假设自变量和因变量之间存在线性关系。
简单线性回归的数学表达式为:$$y = \beta_0 + \beta_1x + \epsilon$$其中,$y$为因变量,$x$为自变量,$\beta_0$为截距,$\beta_1$为斜率,$\epsilon$为误差项。
通过最小二乘法求解简单线性回归模型的参数$\beta_0$和$\beta_1$,可以得到回归方程的估计值。
利用回归方程,可以对因变量进行预测或解释。
多元线性回归是简单线性回归的扩展,假设自变量和因变量之间存在线性关系,但自变量有多个。
多元线性回归的数学表达式为:$$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_kx_k + \epsilon$$其中,$y$为因变量,$x_1$到$x_k$为自变量,$\beta_0$为截距,$\beta_1$到$\beta_k$为斜率,$\epsilon$为误差项。
第三章 回歸分析 §1 一元線性回歸 一、回歸模型設隨機變數y 與引數x 之間存在線性關係,它們的第i 次觀測數據是:(xi,yi)(i=1,2,…,n)那麼這組數據可以假設具有如下的數學結構式:i i i x y εββ++=0(i=1,…,n ),其中β0, β為待估參數,),0(~2σεN i ,且n εεε,,,21 相互獨立,這就是一元線性回歸的數學模型。
二、參數估計 1.回歸係數設b0和b 分別是參數β0, β的最小二乘估計,於是一元線性回歸方程為:i i bx b y+=0ˆ (i=1,2,…,n ) b0,b 叫做回歸係數,它使偏差平方和∑∑==--=-=ni i i ni i i bx b y yy Q 12012)()ˆ(取最小值。
由 ⎝⎛=---=∂∂=---=∂∂∑∑==0)(20)(210100ni i i i ni i i x bx b y b Q bx b y b Q整理得正規方程組: 020()()()i ii i i inb x b y x b x b x y +∑=∑⎛∑+∑=∑⎝解得 xx xy S S b x b y b /,0=-= 其中 222)(x n x x x S i i xx -∑=-∑=y x n y x y y x x S i i i i xy -∑=--∑=))((另外 y n y y y S i i yy -∑=-∑=22)( 2.最小二乘估計b0,b 的統計性質 (1)E(b)= β,E(b0)= β0即b0,b 分別是β0,β的無偏估計 (2)22()/()i D b x x σ=∑-22201()[/()]i D b x x x nσ=+∑-即回歸係數b0,b 與σ2,x 的波動大小有關,b0還與n 有關,這就是說,x 值越分散,數據越多,估計b0,b 越精確。
三、假設檢驗 1.回歸方程顯著性檢驗欲檢驗y 與x 之間是否有線性關係,即檢驗假設H0:β=0。
可线性化的回归分析[学习目标]1.进一步体会回归分析的基本思想.2.通过非线性回归分析,判断几种不同模型的拟合程度.[知识链接]1.有些变量间的关系并不是线性相关,怎样确定回归模型答首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用线性回归方程来建立两个变量之间的关系,这时可以根据已有函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型.2.如果两个变量呈现非线性相关关系,怎样求出回归方程答可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.([预习导引]1.非线性回归分析对不具有线性相关关系的两个变量做统计分析,通过变量代换,转化为线性回归模型.2.非线性回归方程曲线方程曲线图形公式变换变换后的线性函数y=ax b·c=ln av=ln xu=ln yu=c+bvy =a e bxc =ln a u =ln yu =c +bxy =a e b x.c =ln a v =1xu =ln yu =c +bvy =a +b ln xv =ln x u =yu =a +bv#要点一 线性回归分析例1 某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 35 销售额y (万元)4926…3954(1)由数据易知y 与x 具有线性相关关系,若b =,求线性回归方程y =a +bx ; (2)据此模型预报广告费用为4万元时的销售额.解 (1)x -=4+2+3+54=,y -=49+26+39+544=42,∴a =y --b x -=42-×= ∴回归直线方程为y =+. (2)当x =4时,y =+×4=, 故广告费用为6万元时销售额为万元.跟踪演练1 为了研究3月下旬的平均气温(x )与4月20日前棉花害虫化蛹高峰日(y )的关系,某地区观察了2006年2011年的情况,得到了下面的数据:(1)对变量x,y进行相关性检验;(2)据气象预测,该地区在2012年3月下旬平均气温为27 ℃,试估计2012年4月化蛹高峰日为哪天.解制表.(1)r=∑6i=1xiyi-6x-y-(∑6i=1x2i-6x-2)(∑6i=1y2i-6y-2)≈- 8.由|r|>,可知变量y和x存在很强的线性相关关系.(2)b=错误!≈-,a=错误!-b错误!≈.所以,线性回归方程为y=-.当x=27时,y=-×27=.据此,可估计该地区2012年4月12日或13日为化蛹高峰日."要点二可线性化的回归分析例2 在一化学反应过程中,化学物质的反应速度y(g/min)与一种催化剂的量x(g)有关,现收集了8组观测数据列于表中:催化剂的量x/g15182124273033\ 36化学物质的反应速度y(g·min-1)6830277020565350解根据收集的数据,作散点图(如图),根据已有的函数知识,可以发现样本点分布在某一条指数函数曲数y=c1e c2x的周围,其中c1和c2是待定的参数.令z=ln y,则z=ln y=ln c1+c2x,即变换后的样本点应该分布在直线z=a+bx(a=ln c1,b=c2)的周围.由y与x的数据表可得到变换后的z与x的数据表:x15182124!27303336z,作出z与x的散点图(如图).由散点图可观察到,变换后的样本点分布在一条直线的附近,所以可用线性回归方程来拟合.由z与x的数据表,可得线性回归方程:z=+,所以y与x之间的非线性回归方程为y=e-+.*规律方法 可线性化的回归分析问题,画出已知数据的散点图,选择跟散点拟合得最好的函数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.跟踪演练2 电容器充电后,电压达到100 V ,然后开始放电,由经验知道,此后电压U 随时间t 变化的规律用公式U =A e bt (b <0)表示,现测得时间t (s)时的电压U (V)如下表:t /s 0 1 2 3 4 56(7 8910U /V 100 75 55 40 30$2015101055试求:电压U 对时间t 的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解 对U =A e bt 两边取对数得ln U =ln A +bt ,令y =ln U ,a =ln A ,x =t ,则y =a +bx ,得y 与x 的数据如下表:x.1 2345678910{y/根据表中数据作出散点图,如下图所示,从图中可以看出,y 与x 具有较强的线性相关关系,由表中数据求得x -=5,y -≈,进而可以求得b ≈-,a =y --bx -=,所以y 对x 的线性回归方程为y =-.由y =ln U ,得U =e y ,U =-=·e -,因此电压U 对时间t 的回归方程为U =·e-.要点三非线性回归模型的综合应用例3 某地区不同身高的未成年男性的体重平均值如下表:身高x/cm60【708090100110体重y/kg-身高x/cm120130140150160170体重y/kg(试建立y与x之间的回归方程.解根据题干表中数据画出散点图如图所示.由图看出,样本点分布在某条指数函数曲线y=c1e c2x的周围,于是令z=ln y. *x 60708090100110120130140¥150160170z&画出散点图如图所示.由表中数据可得z与x之间的线性回归方程:z=+,则有y=+.规律方法根据已有的函数知识,可以发现样本分布在某一条指数型函数曲线y =c1e c2x的周围,其中c1和c2是待定参数;可以通过对x进行对数变换,转化为线性相关关系.*跟踪演练3 对两个变量x ,y 取得4组数据(1,1),(2,,(3,,(4,,甲、乙、丙三人分别求得数学模型如下: 甲 y =+1, 乙 y =-++,丙 y =-·+,试判断三人谁的数学模型更接近于客观实际. 解 甲模型,当x =1时,y =;当x =2时,y =; 当x =3时,y =;当x =4时,y =.乙模型,当x =1时,y =1;当x =2时,y =; 当x =3时,y =;当x =4时,y =.丙模型,当x =1时,y =1;当x =2时,y =; 当x =3时,y =;当x =4时,y =.观察4组数据并对照知,丙的数学模型更接近于客观实际.1.在一次试验中,当变量x 的取值分别为1,12,13,14时,变量y 的值分别为2,3,4,5,则y 与1x的回归方程为( )A .y =1x +1B .y =2x+3C .y =2x +1D .y =x -1 答案 A解析 由数据可得,四个点都在曲线y =1x+1上.2.某种产品的广告费支出与销售额(单位:百万元)之间有如下对应数据:广告费2~5 6 84销售额3040605070@则广告费与销售额间的相关系数为( )A. B.0.919 C. D.答案B3.根据统计资料,我国能源生产发展迅速.下面是我国能源生产总量(单位:亿吨标准煤)的几个统计数据:年份1996200120062011产量·根据有关专家预测,到2020年我国能源生产总量将达到亿吨左右,则专家所选择的回归模型是下列四种模型中的哪一种( )A.y=ax+b(a≠0) B.y=ax2+bx+c(a≠0)C.y=a x(a>0且a≠1) D.y=log a x(a>0且a≠1)答案A4.某种产品的广告费支出x与销售额y之间有下表关系,现在知道其中一个数据弄错了,则最可能错的数据是__________.x/万元)24568y/万元3040605070答案(6,50)一、基础达标1.下表提供了某厂节能降耗技术改造后生产某产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据.根据表中提供的数据,求出y关于x的线性回归方程是y=+,那么表中t的值是( )x3456,yt4A.4.5 B.4 C.3 D.答案C2.下列数据x,y符合哪一种函数模型( )x1$2345678910y 。
第三章 回归分析原理3·1、一元线性回归数学模型按理说,在研究某一经济现象时,应该尽量考虑到与其有关各种有影响的因素或变量。
但作为理论的科学研究来说,创造性地简化是其的基本要求,从西方经济学的基本理论中,我们可以看到在一般的理论分析中,至多只包含二、三个 变量的数量关系的分析或模型。
这里所讨论的一元线性回归数学模型,是数学模型的最简单形式。
当然要注意的是,这里模型讨论是在真正回归意义上来进行的,也可称之为概率意义上的线性模型。
在非确定性意义上,或概率意义上讨论问题,首先要注意一个最基本的概念或思路问题,这就是总体和样本的概念。
我们的信念是任何事物在总体上总是存在客观规律的,虽然我们无论如何也不可能观察或得到总体,严格说来,总体是无限的。
而另一方面,我们只可能观察或得到的是样本,显然样本肯定是总体的一部分,但又是有限的。
实际上概率论和数理统计的基本思想和目的,就是希望通过样本所反映出来的信息来揭示总体的规律性,这种想法或思路显然存在重大的问题。
但另一方面,我们也必须承认,为了寻找总体的规律或客观规律,只能通过样本来进行,因为我们只可能得到样本。
在前面我们已经知道,用回归的方法和思路处理非确定性问题或散点图,实际上存在一些问题,亦即只有在某些情况下,回归的方法才是有效的。
因此,在建立真正回归意义上建立其有效方法时,必须作出相应的假设条件。
基本假设条件:(1)假设概率函数)|(i i X Y P 或随机变量i Y 的分布对于所有i X 值,具有相同的方差2σ ,且2σ 是一个常数,亦即)(i Y Var =)(i Var μ=2σ。
(2)假设i Y 的期望值)(i Y E 位于同一条直线上,即其回归直线为 )(i Y E =i X βα+ 等价于 0)(=i E μ这个假设是最核心的假设,它实际上表明)(i Y E 与i X 之间是确定性的关系。
(3)假设随机变量i Y 是完全独立的,亦即。
j i u u Cov Y Y Cov j i j i ≠==,0),(),(3·2、随机项或误差项的含义一元线性回归模型的一般形式为i i i x Y μβα++=i μ是一随机项或误差项,它的存在表明i X 对i Y 的影响是随机的,非确定性的。
所以,对于每一个i X 值来说,i Y 是一个概率分布,而不是一个值或几个值。
正是由于i μ的出现,使我们的方法或思路发生巨大的变化,这是我们必须充分注意的。
那么,i μ究竟包含了什么意义或内容呢?概括地说来主要有: (1) 模型中被忽视了的影响因素;(2) 变量的测量误差,这种误差主要来自统计数据本身的误差; (3) 随机误差。
社会经济现象中涉及到人的主观因素和行为,还有历史的、文化的等因素,这些因素一般来说是难以量化的、多变的;(4) 模型的数量关系误差。
即数学形式所带来的误差。
一般来说,模型中的常数项也可以包含某些较为固定的误差。
但是值得指出的是,如果i μ能够包含上述所有的内容,那它的分布及其性质将是十分复杂的,任意的。
前面的假设条件的核心正是限制了i μ的分布形式,因此,实际上i μ并不能包含如此多的内容或负担。
另外,上面4个方面中,我们最主要的是要第4个问题,这也正是经济学研究所要真正解决的问题。
一般来说,所有的经济数学模型的误差也就是这4个方面,或者说是存在的主要问题,对此我们必须要有清醒和深入的认识。
3·3、一元线性回归模型的参数估计我们已知道,总体意义上真正的回归模型是未知的,我们的任务是如何通过样本观察值.,,2,1),,(n i Y X i i =给出总体真正回归模型的最好估计。
我们必须理解和认识总体回归模型和样本回归模型的区别和关系,必须反反复复地去认识、体会。
假设总体真正的回归直线是i i x Y E βα+=)( 它是由总体回归模型i i i x Y μβα++=显然,上面的模型是想象的、理论上的,实际上是找不到的,它们实际上就是所谓客观规律。
而样本的回归直线为i i X Y βαˆˆˆ+= 它是来自于样本的回归模型ii i e X Y ++=βαˆˆ 注意总体和样本模型的区别和联系,无限和有限,相同和不同等。
下面我们同样根据最小二乘准则,建立真正回归意义上的最小二乘法: 对样本模型i i i e X Y ++=βαˆˆ 假设其估计的回归模型为i i X Y βαˆˆˆ+= 因此,其残差则为i I i i i X Y Y Y e βαˆˆˆ--=-= 所以,其残差平方和为22)ˆˆ(ii i X Y e Q βα--==∑∑ 根据前面的结果,我们有∑∑=iii xyx βˆ 其中 Y Y y X X x i i i i -=-=,X Y βαˆˆ-= 到此样本回归模型的参数就估计出来了。
对于这个结果需要注意的是,这里的αˆ , βˆ 都是i Y 的函数,而iY 是随机变量,因此,从理论上说αˆ,βˆ随机变量,而不是一个或几个固定的值,是一个概率分布。
正因为如此,回归的结果实际上也不是确定的,而是概率意义上的。
接着我们关心的是,这个估计结果怎么样?是否可用样本回归模型来推断或替代总体回归模型呢?因此,我们必须进一步讨论αˆ,βˆ的性质,亦即讨论样本回归模型的性质。
3.4、估计值的性质(1) 估计值的线性性质。
所谓线性性是指估计值αˆ,βˆ是观测值iY 的线性函数。
证明:∑∑∑∑∑∑∑-=-==222)(ˆiiii iiii ii xx Y Y x x Y Y x xyx β而0=∑i x∑∑∑==∴ii ii i Y w x Y x 2ˆβ其中∑=iii x x w 2 同理可证:αˆ=i i Y k ∑ 其中 X w nk i i -=1所以,αˆ,βˆ是iY 线性函数(应注意线性性的意义和作用)。
(2) 估计值的无偏性。
所谓无偏性是指估计值αˆ,βˆ的期望值等于总体回归模型参数α,β的值。
亦即αα=)ˆ(E ,ββ=)ˆ(E 。
证明:==∑)()ˆ(i i Y w E E β[])()(i i i i i i i i w X w w E X w E μβαμβα∑∑∑∑++=++ 通过计算可知1,0==∑∑i i iX w w)()()()ˆ(ii i i E w E w E E μβμββ∑∑+=+=∴, 其中),.3,2,1(,0)(n i E i ==μ所以有 ββ=)ˆ(E 同理可证 αα=)ˆ(E (3)有效性(或称αˆ,βˆ具有最小方差性)。
所谓有效性主要是指最小二乘估计αˆ,βˆ在所有线性 无偏估计中,其方差是最小的。
证明的基本思路是:)ˆ()~(ααV a r V a r 〉 ,)ˆ()~(ββVar Var 〉 证明(略)。
上面三个性质是最小二乘估计的主要性质,理论上说 已达到最好的结果了。
因此,满足这三条的估计也称作最 优线性无偏估计。
值得注意的是,这里的最优只是相对所有线性估计中而言的,而不包括非线性估计。
也可以说在很多的情况下,肯定存在比最小二乘估计更好的估计值,这一点必须要认识清楚。
还有一点,最小二乘估计的性质实际上与其假设条件是密切相关的,没有这样假设就没有这样的性质,因此,我们还要看看其假设条件到底是什么意思,要进一步去认识假设条件。
3·5、最小二乘估计α,βˆ的显著性检验与置信区间 所谓显著性检验实际上就是对检验估计值与总体参数值差别大小的方法。
也就是数理统计中的“假设检验”的方法一种实际应用。
这里再一次指出,参数估计之所以要进行检验,是因为这里的αˆ,βˆ是随机变量。
根据“假设检验”的要求,我们要想办法求出αˆ,βˆ的概率分布函数,又由于它们是i Y 的线性函数,则首先要知道i Y 的分布。
因此,我们只能假设i Y 服从正态分布(根据大数定理和中心极限定理,在大样本情况下并不失一般性)。
假设i Y 服从正态分布,又因αˆ,βˆ是iY 的线性函数,所以αˆ,βˆ也是服从正态分布的。
只要计算出αˆ,βˆ的方差,我们就可得到αˆ~),(222σα∑∑iix n X N βˆ~),(22∑ixN σβ在上面的分布函数中,除了α, β不可能知道外,我们必须解决未知数2σ估计值,才可能继续进行显著性检验。
1、 建立随机变量i μ方差的估计值采用一定的办法是可以解决2σ估计值的,下面给出其推理过程,并证明其估计值2ˆσ是一个无偏估计。
设:Y Y y i i -= X X x Y Y y i i i i -=-=,ˆˆ 所以i ii i y y Y Y e ˆˆ-=-= 而 (1)μβαμβα++=++=X Y X Y i i i ,)(μμβ-+=∴i i i x y又(2)X Y βαˆˆ-= 代入 ii X Y βαˆˆˆ+=则有 )(ˆˆX X Y Y i i -=-β i x y βˆˆ=∴ 由此我们就有-=i i y e )()ˆ(ˆμμββ-+--=i i i x y 因此,进一步则有)()ˆ(2)()ˆ(222μμββμμββ----+-=∑∑∑∑ii i i i x x e 下面我们分别计算上式右边每一项的期望值:[]2222)ˆvar()()ˆ(σβββ==-∑∑iixxE 其中 ∑=22)ˆv a r (ixσβ[]⎥⎦⎤⎢⎣⎡-=-∑∑∑222)(1)(i i i n E E μμμμ2)1(σ-=n[]⎥⎥⎦⎤⎢⎢⎣⎡=⎥⎥⎦⎤⎢⎢⎣⎡-=--∑∑∑∑∑∑∑i i i i i i i i i i i x x E x x x x E x E 222)(()()ˆ(μμμμμμββ 2222σσ==∑∑ii xx ( 注意其中∑∑∑∑∑∑+=++==222)(ˆiii ii iiiii xx xXx xYx μβμβαβ∑∑=-∴2ˆiii xx μββ)因此,我们最终得到22222)2(2)1()(σσσσ-=--+=∑n n e E i如果我们定义 2ˆ22-=∑n e iσ,那么2ˆσ就是2σ的 无偏估计,亦即有222)2()ˆ(σσ=-=∑n e E E i。
但是我们还不能证明 2ˆσ是最小方差估计,这是十分遗憾的。
2、 最小二乘估计值αˆ,βˆ的显著性检验 现在我们可以开始对αˆ,βˆ检验了。
我们应该认识到,通过样本得到具体估计值αˆ, βˆ只是一个值,或者说只是无穷个可能值中的一个,此时我们并不了解它们的精度和可靠性。
因此,显著性检验实际上是检验αˆ,βˆ与α,β之间的差距和可靠性。
具体的检验方法就是“假设检验”的方法。
我们从数理统计中知道,一般假设检验中用来进行检验的统计量(实际上就是一种随机变量)主要有二个,即Z 统计量和T 统计量。
(1)应用Z 统计量的条件是:已知2σ而无论样本的大小,或者未知2σ但样本足够的大(n 至少大于30)。