第五章 回归分析
- 格式:doc
- 大小:205.00 KB
- 文档页数:21
第五章相关分析与回归分析相关分析(Correlation Analysis)和回归分析(Regression Analysis)都是统计学中常用的数据分析方法,用于研究两个或多个变量之间的关系。
相关分析主要用于衡量变量之间的线性关系强度和方向,回归分析则是基于相关分析的基础上建立数学模型来预测或解释因变量的方法。
相关分析是一种用于研究两个变量之间关系强度和方向的统计方法。
相关系数是用来衡量两个变量之间相关关系强度的指标,其取值范围为[-1,1]。
当相关系数为正时,表示两个变量呈正相关,即随着一个变量增加,另一个变量也增加;当相关系数为负时,表示两个变量呈负相关,即随着一个变量增加,另一个变量减少;当相关系数接近于0时,表示两个变量之间关系弱或不存在。
常用的相关系数有皮尔逊相关系数(Pearson correlation coefficient)、斯皮尔曼相关系数(Spearman’s rank correlati on coefficient)和肯德尔相关系数(Kendall’s rank correlation coefficient)等。
皮尔逊相关系数适用于两个变量均为连续型的情况,斯皮尔曼和肯德尔相关系数则适用于至少一个变量为顺序型或等距型的情况。
回归分析是一种建立数学模型来预测或解释因变量的方法。
在回归分析中,通常将一个或多个自变量与一个因变量建立数学关系,然后通过该关系来预测或解释因变量。
回归分析可以分为简单回归分析和多元回归分析两种。
简单回归分析是指只有一个自变量和一个因变量之间的分析。
该方法主要用于研究一个自变量对因变量的影响,通过拟合一条直线来描述自变量和因变量之间的线性关系。
简单回归分析的核心是最小二乘法,即通过最小化误差平方和来确定最佳拟合直线。
多元回归分析是指有多个自变量和一个因变量之间的分析。
该方法主要用于研究多个自变量对因变量的影响,并建立一个多元线性回归模型来描述它们之间的关系。
第五章假设检验与回归分析本章主要介绍了假设检验和回归分析两种统计方法。
一、假设检验假设检验是通过收集样本数据来对总体参数的假设进行推断的一种统计方法。
假设检验的步骤如下:1.建立原假设和备择假设:原假设是需要进行检验的参数的假设值,备择假设是对原假设的一种否定或补充。
通常将备择假设设置为我们要验证的假设。
2.收集样本数据:根据样本数据进行统计分析,并计算出检验统计量。
3.确定显著性水平:显著性水平是拒绝原假设的最大错误概率,通常取0.05或0.014.计算拒绝域的临界值:根据显著性水平和自由度,在统计表中查找检验统计量的临界值。
5.比较检验统计量和临界值:如果检验统计量落在拒绝域内,则拒绝原假设,否则接受原假设。
二、回归分析回归分析是一种用于研究两个或多个变量之间关系的统计方法。
它可以用来建立一个变量对另一个变量的预测模型。
回归分析的步骤如下:1.收集数据:根据需要收集自变量和因变量的数据。
2.建立模型:选择适当的回归模型,将自变量和因变量进行数学表达。
3.估计参数:使用最小二乘法等方法,对模型参数进行估计。
4.检验模型:通过检验模型的显著性水平,确定模型是否合理。
5.利用模型:使用估计的模型来进行预测和分析。
回归分析可以分为简单线性回归和多元线性回归两种。
简单线性回归是指只有一个自变量和一个因变量之间的关系,多元线性回归是指有多个自变量和一个因变量之间的关系。
回归分析的应用非常广泛,可以用于市场营销、财务管理、经济预测等领域。
通过回归分析,可以找到影响因变量的主要因素,并对未来的变化进行预测。
总之,假设检验和回归分析是统计学中两种重要的方法。
假设检验用于对总体参数的假设进行验证,回归分析用于研究变量之间的关系。
这两种方法在实际应用中具有广泛的价值。
第五章相关分析和回归分析5.1有人研究了黏虫孵化历期平均温度(x,℃)与历期天数(y,d)之间关系,试验资料如下表,试求黏虫孵化历期平均温度(x,℃)与历期天数(y,d)的简单相关系数。
并建立孵化历期平均温度(x,℃)与历期天数(y,d)之间的一元线性回归方程(要求给出检验结果并描述)。
表5.1 黏虫孵化历期平均温度与历期天数资料5.2 下表为某县1960-1971年的1月份雨量(x1,mm)、3月上旬平均温度(x2,℃)、3月中旬平均温度(x3,℃)、2月份雨量(x4,mm)和第一代三化螟蛾高峰期(y,以4月30日为0)的测定结果。
试计算1月份雨量(x1,mm)、3月上旬平均温度(x2,℃)分别与第一代三化螟蛾高峰期(y)的偏相关系数。
5.3 下表为观测的七个不同高度的风速资料,试建立风速随高度变化的曲线方程。
并确定最合理的是什么样的曲线类型(要求写出曲线方程)。
表5.3 观测的不同高度的风速资料5.4根据多年的大豆分期播种资料,建立大豆产量(y)与生育期降水量(x i)之间的多元线性回归方程。
表5.4 大豆不同生育期降水量与产量数据产量(kg/ha)y生育期降水量(mm)播种-出苗x1出苗-第三叶x2第三叶-开花x3开花-结荚x4结荚-成熟x53982 52 132 180 219 206 3397 25 132 198 201 206 2915 29 170 149 190 202 2142 25 207 111 192 204 1874 43 167 188 111 205 1934 40 85 216 64 189 1692 4 107 192 64 194 1532 18 46 138 165 301 1203 15 49 149 153 299 1200 32 30 137 233 248 1168 7 112 168 158 225 1160 0 111 181 145 225 887 14 104 199 138 208 1124 22 34 26 50 156 927 22 35 25 50 156 870 9 33 25 50 154 979 16 28 22 50 156 924 32 12 37 30 154 1071 33 13 52 20 149 1056 29 15 50 20 149 1124 1 14 50 20 149 924 3 12 50 20 149 1374 11 34 30 8 1635.5根据表5.2的数据试应用逐步回归方法求预报第一代三化螟蛾高峰期的最优线性回归方程(要求给出方程和系数的检验结果)。
第五章回归分析§1.回归分析的数学模型1.1.线性统计模型1.线性回归方程从一个简单的例子谈起。
个人的消费水平Y与他的收入水平X间的关系,大体上可以描述:收入水平高,一般消费水平也高。
但Y 和X绝不是简单的线性关系,这从常识便能判别;而且也不是一种确定的数学关系,两个收入水平完全一样的个人,他们的消费水平可能有很大的差异。
比较合理的看法是:个人的消费水平Y是一个随机变量,从平均的意义上看,应与收入水平成正比。
因此,我们可以给出以下模型:Y = b0 + b1X +ε (1)其中b0,b1是待定常数,ε是随机变量,且有E(ε)=0,这样就能保证E(Y) = b0 + b1X (2)即从平均意义上Y和X线性相关。
等式(2)称为变量Y对于变量X的线性回归方程。
一般情况下,一个随机变量Y与变量X1,X2,…,X p有关系Y = b0 + b1X1 + b2X2 + … + b p X p +ε (3)随机变量ε的期望E(ε)=0,即有:E(Y) = b0+ b1X1 + b2X2+ … + b p X p (4)从平均意义上,Y与X1,X2,…,X p呈线性关系。
(4)式称为变量Y对于变量X1,X2,…,X p的线性回归方程,p=1时,称方程是一元的;p≥2时,称方程是多元的;b0,b1,…,b p称为回归系数。
2.统计模型的假设设变量Y与X1,X2,…,X p之间有关系(3),对(X1,X2,…,X p,Y)做n 次观察,得到一个容量为n的样本:(x i1,x i2, …,x i p,y i)i=1,2,…,n,按(4)式给出的关系,这些样本观察值应有:y1= b0+ b1x11+ b2x12 + … + b p x1p+ε1y2= b0+ b1x21+ b2x22 + … + b p x2p+ε2 (5) …………………………………y n= b0+ b1x n1+ b2x n2 + … + b p x n p+εn其中的εi, i=1,2,…,n是随机误差,出于数学上推导的需要,假设:1)E(εi)=0,i=1,2,…,n.即观察结果没有系统误差;2)Var(εi)=σ2,i=1,2,…,n.这个性质叫做方差齐性;⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n p p x x x x x x X12211111113)Cov(εi εj )=0,i ≠j.由假设1),它等价于随机误差项互相不相关。
3.矩阵表示以上模型与假设,可以用矩阵表示。
用矩阵表示有利于数学推导以及结果的表示。
记向量Y,b,ε和矩阵X 分别为: Y=(y 1, y 2, … , y n )ˊ b=(b 0, b 1, … , b p )ˊ ε=(ε1,ε2,…,εn )ˊ模型(5)的矩阵表示便是Y = Xb + ε (6) 假设1)—3)便是E(ε) = 0 Var(ε) = σ2I 其中I 是n 级单位矩阵。
)ˆ,,ˆ,ˆ(ˆ10'=pb b b b .,,2,1,ˆˆˆˆˆ22110n i x b x b x b b y ipp i i i =++++=∑=-=n i i i yy Q 12)ˆ(Y X X X b''=-1)(ˆ1.2.回归系数的最小二乘估计对于回归方程(4),有两个明显的问题要解决:1)回归系数如何确定?这基本上是一个参数估计问题;2)当回归系数估计出结果后,回归方程能在多大程度上代表变量Y 与X 1,X 2,…,X p 的真实关系,也就是所谓回归方程的显著性检验问题。
先解决回归系数的估计问题。
设b=(b 0,b 1,…,b p )T的估计为 估计值最小二乘估计应使最小,据此,经数学推导可得这就是参数b 的最小二乘估计,其中的逆矩阵(X ˊX)-1称为信息矩阵,用C=(c ij ),i,j=0,1,2,…,n 表示。
它在以后的估计与检验中经常用到。
pp x b x b x b b y ˆˆˆˆˆ22110++++= n i x b x b x b b y ipp i i i ,,2,1,ˆˆˆˆˆ22110 =++++=()()()212121ˆˆ∑∑∑===-+-=-n i ini i in i iyyyyyy()21)(∑=-=n i iyyTSS Total ni x b x b x b b y i ip p i i i ,,2,1,22110 =+++++=ε1.3.回归方程的显著性检验 1.复相关系数 (1)平方和分解公式 设由样本得到的回归方程是由此得到的y i 的估计值便是数学上可以证明以下的“平方和分解公式”误差项ε是不可直接观察到的,它只能从yi -yi 的估计值中估计出来。
εi 称为残差。
我们记()21ˆ)(Re ∑=-=ni i iyyESS sidual ()21ˆ)(Re ∑=-=n i iyyRSS gression RSSESS RSS R+=2其中Total 为平方总和(TSS ),Residual 为残差平方和(ESS ),Regression 为回归平方和(RSS )。
(2)复相关系数平方和分解公式给出: TSS = ESS + RSS其中的TSS 完全由样本观察值决定,在取定一组样本后,它是一个常量。
ESS 是观察值与估计值的误差平方和,表示回归直线的拟合误差,ESS 越小(RSS 的值就越大),回归直线的拟合质量就越好;反之,ESS 越大(RSS 就越小),回归直线的拟合质量就越差。
所以,RSS 的大小或RSS/TSS 的大小,就成了衡量回归方程好坏的尺度。
记:称它的算术平方根R 为复相关系数(恰好是Pearson 相关系数的绝对值)。
这是一个从直观上判断回归方程拟合好坏的尺度,有0≤R ≤1,显然R 值越大,回归方程拟合越好。
)1/(/--=p n ESS p RSS F 1)1(.222----=p n R p R RAdj (3)R 2的校正值(Adjusted R Square)由于多元线性回归方程的复相关系数R 有随着自变量个数p 增加而增大的趋势,为了准确反映模型的拟合程度,引入校正的判决系数,即R 2的校正值。
这是一个更精确的R 2估计值,它的计算公式是2.假设检验回归方程拟合的好坏(也称显著与否)可以进行假设检验。
假设为:H 0:b 1=b 2=…=b p =0 (意为:回归方程不显著) H 1:H 0不对用F 检验,统计量为:其中,p 为自变量的个数。
若H 0为真,则F ~F (p, n-p-1),检验临界域由 P(F >f α)=α 确定。
1.4.回归系数的显著性检验 1.检验的意义pi c b Q iii i ,,2,1,ˆ2==∆回归系数的显著性检验的目的是检验自变量对因变量作用的显著程度,从而剔除回归方程中那些对因变量作用不显著的变量,简化回归方程。
2.偏回归平方和 (1)偏回归平方和的意义在平方和分解公式中,已经得到:回归平方和RSS 是回归方程拟合好坏的一个衡量尺度。
设RSS 是由包含全部自变量的回归方程所计算的回归平方和,而RSS (i )是剔除了自变量X i 后,所得的回归方程计算而得的回归平方和。
差:△Q i = RSS - RSS (i )表示在变量X i 被剔除后,回归平方和减少了多少。
显然,△Q i 越大,说明变量X i 越重要。
△Q i 称为变量X i 的偏回归平方和。
(2)计算公式3.假设检验回归系数的显著性检验,假设为: H 0:b j =0(即变量X j 不显著) H 1:b j ≠ 0 检验统计量为jj j j c b t σˆˆ=若H 0为真,便有t j ~t(n-p-1),检验的临界域由 P(│t │>t α)=α 确定。
1.5.回归方程的诊断1.共线性(Collinearity )诊断1)共线性的含义 p(≥2)元线性回归方程p p X b X b X b b Y ˆˆˆˆˆ22110++++=中,如果自变量X 1,X 2,…,X p 也构成一个显著的线性模型。
换言之:存在一个自变量,不妨设它是X 1,如果用X 1作因变量,对于剩下的自变量X 2,…,X p 构成一个显著的p-1元线性回归方程:pp Xc X c c X +++= 2201ˆ2)变量X j 的容限(Tolerance )设2jR 是以自变量X j 为因变量,与其他 p -1个自变量构成的p -1元线性回归方程的判决系数,称21)(jj R X Tol -=为变量X j 的容限。
它是判断回归方程共线性的重要指标。
显然有:1)(0≤≤j X Tol 。
并且:Tol (X j ) 的值越小,自变量X j 的共线性越显著。
2.残差分析 1)残差残差(Residual )指实际观察值与预测值之差:n i Y Y e ii i ,...,2,1,ˆ=-=残差向量:Y X X X X I Y Y e n ])([ˆ1''-=-=- (1)残差的均值为零,即有:0)(=e E。
(2)残差的协方差矩阵 ])([)(12X X X X I e D n''-=-σ 2)Durbin-Watson 统计量∑∑==--=n t tn t t t e e e d 12221)(当n 充分大时,)ˆ1(2ρ-≈d ,其中的ρˆ是残差序列的一阶自相关系数的估计。
可见此时的d 值大约在区间[0, 4]之内,而当d =2时,可判定残差序列独立。
§2.命令Regression 初步 2.1.线性回归分析命令使用1.命令调用 Statistics → Regression → Linear 2.Linear Regression 对话框的使用Dependent 是因变量框,Independent 是自变量框。
在使用的时候,只需要将因变量、自变量输入各自的框中。
Method 是方法选择框,包括有Enter(直接进入)、Stepwise(逐步回归)、Remove(移出)、Backward(向后剔除)和Forward(向前剔除)五种建立回归方程的方法。
系统默认的是Enter法。
点击系统将按照直接进入法进行回归分析。
下面详细说明对话框中各部分的功能和使用方法。
【Independent框】:用于选入回归分析的自变量。
【Method下拉列表】:用于选择对自变量的选入方法,有Enter (强行进入法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward (向后法)、Forward(向前法)五种。
该选项对当前Independent 框中的所有变量均有效。
【Selection Variable框】:选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,只有满足该条件的记录才会进入回归分析。