一元回归
- 格式:doc
- 大小:654.54 KB
- 文档页数:9
第三章 一元线性回归模型一、预备知识(一)相关概念对于一个双变量总体,若由基础理论,变量和变量之间存在因果),(i i x y x y 关系,或的变异可用来解释的变异。
为检验两变量间因果关系是否存在、x y 度量自变量对因变量影响的强弱与显著性以及利用解释变量去预测因变量x y x ,引入一元回归分析这一工具。
y 将给定条件下的均值i x i yi i i x x y E 10)|(ββ+=(3.1)定义为总体回归函数(PopulationRegressionFunction,PRF )。
定义为误差项(errorterm ),记为,即,这样)|(i i i x y E y -i μ)|(i i i i x y E y -=μ,或i i i i x y E y μ+=)|(i i i x y μββ++=10(3.2)(3.2)式称为总体回归模型或者随机总体回归函数。
其中,称为解释变量x (explanatory variable )或自变量(independent variable );称为被解释y 变量(explained variable )或因变量(dependent variable );误差项解释μ了因变量的变动中不能完全被自变量所解释的部分。
误差项的构成包括以下四个部分:(1)未纳入模型变量的影响(2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。
在总体回归模型(3.2)中参数是未知的,是不可观察的,统计计10,ββi μ量分析的目标之一就是估计模型的未知参数。
给定一组随机样本,对(3.1)式进行估计,若的估计量分别记n i y x i i ,,2,1),,( =10,),|(ββi i x y E 为,则定义3.3式为样本回归函数^1^0^,,ββi y ()i i x y ^1^0^ββ+=n i ,,2,1 =(3.3)注意,样本回归函数随着样本的不同而不同,也就是说是随机变量,^1^0,ββ它们的随机性是由于的随机性(同一个可能对应不同的)与的变异共i y i x i y x 同引起的。
一元回归系数表示自变量x每增加一个单位,因变量y会变化β个单位。
如果回归系数越大,那么y受到x的影响就越大。
例如,如果回归系数为0.5,那么当x增加1个单位时,y就会增加0.5个单位。
反之,如果回归系数为-0.2,那么当x增加1个单位时,y就会减少0.2个单位。
一元回归系数的意义在于它能够帮助我们了解自变量和因变量之间的关系强度和方向。
通过计算回归系数,我们可以确定哪些因素对因变量有显著影响,以及这些因素的影响程度如何。
此外,一元回归系数还可以用于预测未来的结果。
如果我们知道了自变量的值,并且已经计算出了回归系数,那么我们可以使用这个系数来预测因变量的值。
这种方法被称为“回归分析”。
第二章 一元线性回归模型2.1 一元线性回归模型的基本假定有一元线性回归模型(统计模型)如下, y t = β0 + β1 x t + u t上式表示变量y t 和x t 之间的真实关系。
其中y t 称被解释变量(因变量),x t 称解释变量(自变量),u t 称随机误差项,β0称常数项,β1称回归系数(通常未知)。
上模型可以分为两部分。
(1)回归函数部分,E(y t ) = β0 + β1 x t ,(2)随机部分,u t 。
图2.1 真实的回归直线这种模型可以赋予各种实际意义,居民收入与支出的关系;商品价格与供给量的关系;企业产量与库存的关系;身高与体重的关系等。
以收入与支出的关系为例。
假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。
但实际上数据来自各个家庭,来自同一收入水平的家庭,受其他条件的影响,如家庭子女的多少、消费习惯等等,其出也不尽相同。
所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。
“线性”一词在这里有两重含义。
它一方面指被解释变量Y 与解释变量X 之间为线性关系,即另一方面也指被解释变量与参数0β、1β之间的线性关系,即。
1ty x β∂=∂,221ty β∂=∂0 ,1ty β∂=∂,2200ty β∂=∂2.1.2 随机误差项的性质随机误差项u t 中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。
所以在经济问题上“控制其他因素不变”是不可能的。
随机误差项u t 正是计量模型与其它模型的区别所在,也是其优势所在,今后咱们的很多内容,都是围绕随机误差项u t 进行了。
回归模型的随机误差项中一般包括如下几项内容: (1)非重要解释变量的省略,(2)数学模型形式欠妥, (3)测量误差等,(4)随机误差(自然灾害、经济危机、人的偶然行为等)。
2.1.3 一元线性回归模型的基本假定通常线性回归函数E(y t ) = β0 + β1 x t 是观察不到的,利用样本得到的只是对E(y t ) =β0 + β1 x t 的估计,即对β0和β1的估计。
从统计学看线性回归(1)——⼀元线性回归⽬录1. ⼀元线性回归模型的数学形式2. 回归参数β0 , β1的估计3. 最⼩⼆乘估计的性质 线性性 ⽆偏性 最⼩⽅差性⼀、⼀元线性回归模型的数学形式 ⼀元线性回归是描述两个变量之间相关关系的最简单的回归模型。
⾃变量与因变量间的线性关系的数学结构通常⽤式(1)的形式:y = β0 + β1x + ε (1)其中两个变量y与x之间的关系⽤两部分描述。
⼀部分是由于x的变化引起y线性变化的部分,即β0+ β1x,另⼀部分是由其他⼀切随机因素引起的,记为ε。
该式确切的表达了变量x与y之间密切关系,但密切的程度⼜没有到x唯⼀确定y的这种特殊关系。
式(1)称为变量y对x的⼀元线性回归理论模型。
⼀般称y为被解释变量(因变量),x为解释变量(⾃变量),β0和β1是未知参数,成β0为回归常数,β1为回归系数。
ε表⽰其他随机因素的影响。
⼀般假定ε是不可观测的随机误差,它是⼀个随机变量,通常假定ε满⾜:(2)对式(1)两边求期望,得E(y) = β0 + β1x, (3)称式(3)为回归⽅程。
E(ε) = 0 可以理解为ε对 y 的总体影响期望为 0,也就是说在给定 x 下,由x确定的线性部分β0 + β1x 已经确定,现在只有ε对 y 产⽣影响,在 x = x0,ε = 0即除x以外其他⼀切因素对 y 的影响为0时,设 y = y0,经过多次采样,y 的值在 y0 上下波动(因为采样中ε不恒等于0),若 E(ε) = 0 则说明综合多次采样的结果,ε对 y 的综合影响为0,则可以很好的分析 x 对 y 的影响(因为其他⼀切因素的综合影响为0,但要保证样本量不能太少);若 E(ε) = c ≠ 0,即ε对 y 的综合影响是⼀个不为0的常数,则E(y) = β0 + β1x + E(ε),那么 E(ε) 这个常数可以直接被β0 捕获,从⽽变为公式(3);若 E(ε) = 变量,则说明ε在不同的 x 下对 y 的影响不同,那么说明存在其他变量也对 y 有显著作⽤。
101.2)108()(20250211=+=+-⋅t f f at 因为101.2)(2474.1211=+-<=f f at t ,可认为1b 与2b 无显著差异。
因此可将1ˆb ,2ˆb 联合起来作为公共的b ˆ 199.2732163607321232.26360162.2ˆˆˆ2211221121=+⨯+⨯=++=χχχχχχχχl l l b l b b第三步:检验1a 与2a 是否有显著差异28.173214863604512110177.22.1554.15811ˆˆ22222121212211=+++-=+++-=χχχχχχl l n n s a at查表 101.2)18()(29750211==+-⋅t f f at由于101.2)(228.1211=+-<=f f at t ,可以认为1a 与2a 无显著差异,故此时可以将他们合并起来估计共同的a :8.156121048124510199.2121034.2621269.25510ˆˆ212211212211=+⨯+⨯⨯-+⨯+⨯=++-++=n n x n x n bn n y n y n a 总之,公共的回归方程为x y 199.28.156~+= 在上述步骤中,只要有一个检验显著,则可认为两条回归线有显著的差异。
若皆相容,则可用本例所述方法,得到共同的回归方程。
可以证明:这种求法与将两组资料全部合并出的回归方程是完全一样的。
§ 2 一 元 曲 线 回 归在许多问题中,两变量之间并不一定是线性关系,而是某种非线性关系,如图4——4(6),这时如何确定回归方程呢?常用的有三种方法:化为一元线性回归,多项式回归,和分段回归。
一、化为一元线性回归例2.1 混凝土的抗压强度X 较易测定,其抗剪切强度Y 不易测定,工程中希望能由X 估算出Y ,以便应用。
测得一批对应数据如下: 表4.6 抗压强度 X (kg/c 2m ) 141 152 168 182 195 204 223 254 277 抗剪强度 Y (kg/c 2m )23.124.227.227.828.731.432.534.836.2求Y 与X 的关系式:Y=BAX (此形式是文献上建议的)。
解 在坐标纸上画出散点图,看出它 们不像是直线关系,由文献个知道可以用Y= BAX (2.1) 这种模型。
为此要求出A ,B 。
(2.1)可以化为X B A Y ln ln ln += (2.2) 可以化为bx a y += (2.3)这里B b A a ==,ln 图4—6 由(i X ,i Y )的数据,分别取对数即可得到(i x ,i y )的数据,如下表 表4.7 X x ln = 4.949 5.024 5.1245.204 5,273 5.318 5.407 5.537 5.624 Y y ln =3.140 3.186 3.3033.3253.3573.4473.4813.5503.589经计算237.5=x 375.3=y 4073.0=xx l 2762,0=xy l 1916.0=yy l678.0ˆ=b, 2005.0ˆ-=a ∴9886.06781.02005.0~=+-=r xy 化为原来关系式818.0ˆ2005.0ˆ===-e e Aa 678.0ˆˆ==b B∴678.0ˆ818.0X AX y B ==在将曲线回归化为线性回归时,剩余平方和的概念已与原有的不同,过去见(1.13)式 ∑∑---=-===2222)()~(11y y y y l Q l U l l l r i i i yy yy yyxx xy(2.4) 称2R 为相关指数,R 仍称为相关系数,但它与(2.4)用变换后的数据),(i i y x 算出 的r ,不是一回事。
当然,2R 也是越接近于1,则配曲线效果愈好。
对于估计y 的标准差,要用 222)~(22-=-=--=∑∑n Qn n Y Y s ii i σ(2.6) 式中i i i Y Y ~-=σ必须用变换前的数据逐个直接计算,再算∑=2iQ σ例2.2 (续例2.1)求剩余平方和Q ,剩余标准差s 及相关指数2R 解:列表计算表 4.8 X 141 152 182 168 195 204 223 254 277 Y23.124.2 27.2 27.8 28.7 31.4 32.5 34.8 36.2 678.0818.0~x Y = 23.4424.66 26.39 27.87 29.20 30.11 31.98 34.93 37.05 Y Y ~-=σ-0.34-0.460.81-0.07-0.501.290.52-0.13-0.85可以看出这里的R 值与原来算出的9879.0=r 值不相同。
注:在本章 1中,作回归线的目的是使y 的剩余平方和Q 达到最小,但在化曲线为直线的回归中,若对y 也作了变换,则实际上求出的回归线是使变换后的y 与相应回归线上点的值之差(如本例,是使))~ln (ln 2iiy y Q -=∑达到极小,所以不能说所配的曲线是同类型中“最佳”曲线(因为“最佳”定义不同了)。
而且我们甚至连哪种线型最好都还不能肯定。
因此,在配曲线时。
最好不同的函数类型计算后,再进行比较,择其最优者。
比较时,可比较Q 、2R 、s 这三个量中的任一个,(Q ,s 小者为优,2R 大者为优)。
试比较下列两种变换 1. X B A Y ln 11+=型 回归方程:x y ln 9.103.75~+-=表 4.9X 141 152 168 182 195 204 223 254 277 Y23.124.227.227.828.731.432.534.836.2X Y ln 9.193.75+-= 23.18 24.67 26.67 28.59 29.63 30.53 32.30 34.89 36.62Y Y ~-=σ-0.08 -0.47 0.53 -0.79 -0.93 0.87 0.20 -0.09 -0.429786.2=Q 6523.02=-=n Qs 9908.09817.04.1639786.212==-=R R 2. X B A Y 22+=型 回归方程X Y 81.288.9~+-= 3748.3=Q 6943.02=-=n Qs 9896.09793.04.1633748.312==-=R R 表 4.10X 141 152 168 182 195 204 223 254 277 Y23.124.227.227.828.731.432.534.836.288.981.2~-=X Y 23.49 24.76 26.54 28.03 29.36 30.25 32.08 34.90 36.89Y Y ~--0.39-0.560.66-0.23-0.661.150.42-0.1-0.69看来,这两种线型(尤其是X B A Y ln +=)比原有文献的公式效果要好些。
为了有更多的比较机会,宜用电子计算机来算,常用的变换有X x =1(不变),22X x =,X e x X x Xx X x X x =====765433.ln ,1,,,共七种,对Y 同样有七种变换。
组合起来共有49种,可以由计算机自动计算回归线,算出Q 、s 、R ,然后从中选择最优者。
二、多项式回归 在曲线回归中,比较困难的是选择合适的曲线类型。
有的曲线也不一定经变换就能化成直线形状。
这就引出了解决曲线回归的另一种方法—多项式回归。
由数学分析的知识可以知道,相当广泛的一类曲线可以用多项式去逼近,考虑mm x b x b x b a y,ˆ221⋅⋅⋅+++= (2.7)这是x 的m 次多项式。
M 根据情况而定。
只要求出回归系数m b b a ,,,1⋅⋅⋅,这个多项式即可建立。
具体的计算方法见§3。
多项式回归的计算随着m 的增大而急剧增加,利用电子计算机是不可避免的。
若自变量是等距变化时,有一种特殊类型的多项式—正交多项式,可以大大减少计算量。
有关这方面的结果可以参看中国数学所编《回归分析方法》(科学出版社,1974)第八章。
三、分段回归(样条回归)当散点图上呈现的趋势较为复杂时,常常难以找到某种合适的变换化为线性回归。
用多项式回归时,要拟合得好,就要多项式的次数较高。
而次数过高的多项式振动较大,很不稳定。
对已有的数据表面上拟合得很好,但预报效果很差,多项式回归也不一定能很好解决问题。
为什么会出现复杂的变化趋势呢?细分析起来,可以看出,这是因为自变量x 变化范围较大,而在x 的范围内,y 的相应规律可能并不相同,因此回归效果才不好。
怎样解决这个问题呢?大家知道,大范围内的一条曲线,若将自变量分割为若干小范围,则各范围内的关系可以简单得多(甚至可以是直线),因此若果分段地进行回归,效果就会较好。
分段回归有这样几个步骤和要求:1)将自变量范围分成若干段,选择好适当的分点。
2)在每段内用一个次数不高(通常小于等于三系)的多项式来拟合。
3)在两段接头之处,曲线相连而且要接得光滑。
解决分段回归的主要工具是样条(Spline)函数,近十几年来这个领域发展非常迅速,在我国也有初步应用。
有关这方面内容可以参看中国科学院计算中心概率统计组编著《概率统计计算》(科学出版社,1979),第五章§4。
这里不详细介绍了。
§3 多 元 线 性 回 归前面两节讨论的只是两个变量的回归问题,其中因变量只与一个自变量有关。
在大多数实际问题中,影响因变量的因素(即自变量)不是一个而是多个(这时,因变量仍只有一个)。
我们称这类问题为多元回归分析。
我们着重讨论简单而又最一般的线性回归问题,这是因为许多非线性的情形都可以化为线性回归来做。
在一个自变量的情形,这样做有时还行不通(如多项式回归计算与线性回归就不同了),但在多元回归分析中,可以将非线性项设成辅助自变量而变成线性项,从而把非线性回归化为线性回归。
因此,在绝大多数情况下,多元“线性”回归已是足够的了。
多元线性回归分析的原理与一元线性回归分析完全相同,但在计算上要复杂得多,我们先通过一个二元线性回归例子说明问题,然后引出多元回归计算的一般公式,并简要介绍逐步回归的原理。
一、二元线性回归例3.1:养猪场为估算猪的毛量,测算了14头猪的身长1x (cm)、肚围2x (cm)、与体重y(kg)的数据,试求2211x b x b a y ++=型经验公式 表 4.11 身长1x (cm) 41 45 51 52 59 62 69 72 78 80 90 92 98 103 肚围2x (cm) 49 58 62 71 62 74 71 74 79 84 85 94 91 95 体重y(kg)2839414443505157636670768084象本例这样,要求用线性函数2211x b x b a ++来估计y 的数学期望的问题就称为二元线性回归问题,它用数学表达式可以一般地写成下列形式:我们假定:对21,x x 的任一对值,有2211x b x b a Ey ++=,进一步假定2D σ=y 与21,x x 无关,且y 为正态分布,总之,假设22211;(~σx b x b a N y ++ (3.1) 或 {),0(~22211σεεN x b x b a y +++= (3.2) 其中221,,,σb b a 是与21,x x 无关的常数,2211x b x b a ++称为回归平面方程,亦简称为二元线性回归方程。