当前位置:文档之家› 处理多元线性回归中自变量共线性的_省略_2_中REG等过程增强功能的使用_高惠璇

处理多元线性回归中自变量共线性的_省略_2_中REG等过程增强功能的使用_高惠璇

处理多元线性回归中自变量共线性的_省略_2_中REG等过程增强功能的使用_高惠璇
处理多元线性回归中自变量共线性的_省略_2_中REG等过程增强功能的使用_高惠璇

文章编号:1002-1566(2000)05—0049—07

处理多元线性回归中自变量共线性的几种方法——S AS/S TAT软件(6.12)中REG等过程增强功能的使用

高惠璇

(北京大学概率统计系,北京海淀区 100871)

摘 要:本文通过例子介绍多元线性回归中自变量共线性的诊断以及使用SA S/SA T A(6.12)软件

中的REG等过程的增强功能处理回归变量共线性的一些方法。包括筛选变量法,岭回归分析法,

主成分回归法和偏最小二乘回归法。

关键词:回归、SAS/ST A T、共线性、筛选变量、岭回归、主成分回归、偏最小二乘回归。

中图分类号:0212;C8文献标识码:A

回归分析方法是处理多变量间相依关系的统计方法。它是数理统计中应用最为广泛的方法之一。在长期的大量的实际应用中人们也发现:建立回归方程后,因为自变量存在相关性,将会增加参数估计的方差,使得回归方程变得不稳定;有些自变量对因变量(指标)影响的显著性被隐蔽起来;某些回归系数的符号与实际意义不符合等等不正常的现象。这些问题的出现原因就在于自变量的共线性。本文通过例子来介绍自变量共线性的诊断方法以及使用SAS/ST AT 软件6.12版本中REG等过程的增强功能处理回归变量共线性的一些方法。

一、共线性诊断

共线性问题是指拟合多元线性回归时,自变量之间存在线性关系或近似线性关系。

共线性诊断的方法是基于对自变量的观测数据构成的矩阵X′X进行分析,使用各种反映自变量间相关性的指标。共线性诊断常用统计量有方差膨胀因子V IF(或容限TOL)、条件指数和方差比例等。

方差膨胀因子V IF是指回归系数的估计量由于自变量共线性使得其方差增加的一个相对度量。对第i个回归系数,它的方差膨胀因子定义为

V IF i=第i个回归系数的方差

自变量不相关时第i个回归系数的方差=1

1-R2i

=1

TOL i

其中R2i是自变量x i对模型中其余自变量线性回归模型的R平方。V IF i的倒数TOL i也称为容限(Tolerance)。

一般建议,若V IF>10,表明模型中有很强的共线性问题。

若矩阵X′X的特征值为d21≥d22≥…≥d2k,则X的条件数d1

d k

就是刻划它的奇性的一个指

标。故称d1

d j

(j=1,…,k)为条件指数。

一般认为,若条件指数值在10与30间为弱相关;在30与100间为中等相关;大于100表明有强相关。

对于大的条件指数,还需要找出哪些变量间存在强的线性关系。因为每个条件指数对应一

个特征向量,而大的条件指数相应的特征值较小,故构成这一特征向量的变量间有近似的线性关系。在统计中用方差比例来说明各个自变量在构成这个特征向量中的贡献。

一般建议,在大的条件指数中由方差比例超过0.5的自变量构成的变量子集就认为是相关变量集。

二、筛选变量的方法

变量筛选的一些方法除了把对因变量Y 影响不显著的自变量删除之外,还可以从有共线关系的变量组中筛选出对因变量Y 影响显著的少数几个变量。

例1(水泥数据) 某种水泥在凝固时放出的热量Y(卡/克)与水泥中下列四种化学成份有关:x 1(3C a O .Al 2O 3的成份)、x 2(3C a O .S i O 2的成份)、x 3(4C a O .Al 2O 3.F e 2O 3的成份)和x 4(2C a O.S i O 2的成份)。共观测了13组数据(见表1),试用REG 过程分析水泥数据,求出Y 与x 1,x 2,x 3,x 4的最优回归式。

表1 水泥数据序号

x 1x 2x 3x 4Y 12345678910111213711111711312211111026295631525571315447406668615886917221842398605220473322644222634121278.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.4 解 (1)首先用REG 过程对自变量的共线性进行诊断,只需在MODEL 语句的斜杠(/)后使用选项V IF 和CO LLIN OIN T (或CO LLIN ),以下SAS 程序输出的部分结果见输出 1.1(假设表1中的数据已生成SAS 数据集D 1)。 proc reg da ta =d 1;model y =x 1-x 4/vif collinoint ;run ;

由输出1.1的参数估计部分,可以得出:①4个自变量的方差膨胀因子(V IF)均大于10,最大为282.51,表示变量之间有严重的多重共线关系。②回归方程的截距项=0的假设是相容的(p 值=0.3991);③所有自变量在α=0.05的显著水平下对因变量的影响均不显著(有三个变量的p 值大于0.5),而回归方程是高度显著的(p 值=0.0001,输出1.1没有显示),这说明自变量对因变量的显著影响均被变量间的多重相关性隐藏了。

由输出 1.1的共线性诊断部分,可以得出:①最大条件指数37.1>30,说明4个自变量间有中等相关关系;②与最大条件指数在一行的4个变量的方差比例均大于0.5,这说明这4个变量就是一个具有中等相关的变量集。

输出1.1 水泥数据共线性诊断的部分结果 (2)用逐步回归方法从

相关变量集中选出“最优”

回归子集,当引入和删除

的显著性水平α取为0.05

时,入选的自变量为x 1和

x 4;当显著性水平α取为

0.10或0.15时,则入选的

自变量为x 1和x 2。可见用

逐步筛选的方法得到的回归子集与显著水平的选取

有关,选出的子集是某个较优的回归方程。容易验证这里得到的两个子集中变量对Y的影响都是高度显著的,且自变量的方差膨胀因子V IF值都小于 1.1,表明已没有共线问题。

(3)用全子集法计算所有可能回归,从中选出最优的回归方程。以下S AS程序中, MODEL语句斜杠(/)后的选项指出用R2选择法,要求对每种变量个数输出二个最佳的回归子集,并输出均方根误差、CP、AIC和修正R2统计量,产生的结果见输出1.2。

proc reg da ta=d431;

m odel y=x1-x4/selectio n=rsquare best=2cp aic rm se adjrsq;

run;

输出1.2 对水泥数据计算所有可能回归的部分结果

在模型中变量个数固定为2的回归子集中选出的最优回归子集是x1和x2,其次是x1和x4。如果按均方根误差最小的准则、修正R2最大准则及AIC最小准则,选出的最优子集都是x1、x2和x4。但在回归系数的显著性检验中,x4对Y的作用不显著(p=0.2054);且x2和x4的方差膨胀因子V IF值>10,共线诊断的结论也说明x2和x4是相关的变量集。而按CP统计量最小淮则选出的最优回归子集为x1和x2。综合以上分析可得出Y与x1、x2的回归方程是可用的最优方程。

用筛选变量的方法从有共线性的变量组中筛选出对因变量Y影响显著的若干个变量来建立最优回归式,不仅克服了共线性问题,且使得回归式简化;但有些实际问题希望建立Y与给定自变量的回归式,既使自变量有共线性问题,如经济分析中的问题。下面三种方法都是针对这类问题而给出的方法。

三、岭回归方法

在经典多元线性回归分析中,参数β=(β0,β1,...,βm)′的最小二乘估计b=(b0,b1,..., b m)′的均方误差为E{(b-β)′(b-β)},当自变量存在多重共线关系时,均方误差将变得很大,故从均方误差的角度看,b不是β的好估计。

减少均方误差的方法就是用岭回归估计替代最小二乘估计。设k≥0,则称

b(k)=(X′X+k I)-1X′Y

为β的岭回归估计。用岭回归估计建立的回归方程称为岭回归方程。当k=0时b(0)=b就是β的最小二乘估计。从理论上可以证明,存在k>0,使得b(k)的均方误差比b的均方误差小;但使得均方误差达到最小的k值依赖于未知参数β和σ2。因此k值的确定是岭回归分析中关键。

在实际应用中,通常确定k值的方法有以下几种:①岭迹图法,即对每个自变量x i,绘制随k值的变化岭回归估计b i(k)的变化曲线图。一般选择k使得各个自变量的岭迹趋于稳定。

②方差膨胀因子法,选择k使得岭回归估计的V IF<10。③控制残差平方和法,即通过限制b

(k )估计的残差平方和不能超过c Q (其中c >1为指定的常数,Q 为最小二乘估计的残差平方和)来找出最大的k 值。下面通过例子来介绍岭回归分析。

例2:经济分析数据的岭回归分析

考察进口总额Y 与三个自变量:国内总产值x 1,存储量x 2,总消费量x 3(单位均为十亿法郎)有关。现收集了1949年至1959年共11年的数据(见表2)。对表2的数据试用REG 过程求进口总额与总产值、存储量和总消费量的定量关系式。

表2 经济分析数据序号

x 1x 2x 3Y 1234567891011149.3161.2171.5175.5180.8190.7202.1212.4226.1231.9239.0 4.24.13.13.11.12.22.15.65.05.10.7108.1114.8123.2126.9132.1137.7146.0154.1162.3164.3167.615.916.419.019.118.820.422.726.528.127.626.3 解 (1)使用REG 过程来建立Y 与x 1、x 2、x 3的回归关系式。以下SAS 程序产生的完整输出结果这里省略了(假设表2中的数据已生成SAS 数据集D 2)。proc reg data=d2co rr; model y =x 1-x 3/v if co llin ;run ; 由REG 过程得到的回归方程

为:

Y =-10.128-0.051x 1+0.587x 2+0.287x 3

变量x 1的系数为负值,这与实际情况不符。出现此现象的原因是变量x 1与x 3线性相关:d (x 1,x 3)=0.997。在MODEL 语句后加上选项V I F 和COLL IN 产生的输出(省略了)可以更清楚地看出x 1和x 3是多重相关的变量集。为了消除变量之间的多重共线关系,岭回归就是一个有效的方法。

(2)在MODEL 语句的斜杠(/)后由选项RIDGE =指定一组k 值来完成岭回归分析。在

PLOT 语句中由选项R IDGE PLO T 要求绘制岭迹图。PROC REG 语句的选项OU TE ST =OU T 2要求把这一组k 值的岭回归估计送到输出数据集OU T 2中,选项OU TV I F 还要求把岭回归估计的方差膨胀因子(VI F )送到输出集中。以下SA S 程序的部分输出结果见输出2.1和输出2.2。

proc reg da ta =d 2o utest =out 2g ra phics outvif ;

m odel y =x 1-x 3/ridg e =0.0to 0.1by 0.01 0.20.30.40.5;plot /ridg eplot;

proc print data=out2;run;

输出 2.1 经济分析数据的岭迹图

由岭迹图可以看出,当k≥0.02后,岭迹曲线趋于稳定。取k=0.02的岭回归估计来建立岭回归方程,由输出2.2可以写出岭回归方程式为:

Y=-8.9277+0.057x1+0.59542x2+0.127x3

这时得到的岭回归方程中回归系数的符号都有意义;各个回归系数的方差膨胀因子均小于3 (见输出2.2中OBS为6的那一行);岭回归方程的均方根误差(-RM SE-=0.57016)虽比普通最小二乘回归方程的均方根误差(-RM SE-=0.48887)有所增大,但增加不多。

输出2.2 经济分析数据的输出数据集(部分)

四、主成分回归法

主成分分析是将具有多重相关的变量集综合得出少数几个互不相关的综合变量——主成分的统计方法。主成分回归首先找出自变量集的主成分,然后建立Y与互不相关的前几个主成分的回归关系式,最后还原为原自变量的回归方程式——主成分回归式。

例3:经济分析数据的主成分回归分析

解 使用REG过程做主成分回归。在SAS/ST AT软件的6.12版本中,用REG过程提供的选项可完成主成分回归的计算。SAS程序如下:

proc reg da ta=d2outest=out3;

m odel y=x1-x3/pcomit=1,2outvif;

proc print data=out3;

run;

在MO DEL语句的斜线(/)后通过选项PCOM IT=1,2表示要求删去最后面(即最不重要)的1个或2个主成分之后,用前面m-1个主成分或前面m-2个主成分(m为自变量的个数,此例中m=3)进行主成分回归。主成分回归的结果存放在SAS数据集O U T3中。

由输出 3.1可以得出删去第三个主成分(PCOM IT=1)后的主成分回归方程(见输出 3.1中OBS为3的那一行)为Y=-9.1301+0.07278x1+0.60922x2+0.10626x3

输出3.1 经济分析数据主成分回归的结果

这个主成分回归方程中回归系数的符号都是有意义的;各个回归系数的方差膨胀因子均小于 1.1(见输出 3.1中OBS为2的那一行);主成分回归方程的均方根误差(-RM SE-= 0.55)虽比普通回归方程的均方根误差(-RM SE-=0.48887)有所增大,但增加不多。

五、偏最小二乘回归法

偏最小二乘(PLS)回归是工业应用中用于软建模的流行方法。当多个因变量间以及多个自变量间存在严重的多重相关时,PL S是构造预测模型的一种有效方法。

偏最小二乘回归的基本作法是首先在自变量集中提取第一潜因子t1(t1是x1,x2,…,x m 的线性组合,且尽可能多地提取原自变量集中的变异信息,比如第一主成分);同时在因变量集中也提取第一潜因子u1,并要求t1与u1相关程度达最大。然后建立因变量Y与t1的回归,如果回归方程已达到满意的精度,则算法终止。否则继续第二轮潜在因子的提取,直到能达到满意的精度为止。若最终对自变量集提取l个潜因子t1,t2,…,t l,偏最小二乘回归将通过建立Y 与t1,t2,…,t l的回归式,然后再表示为Y与原自变量的回归方程式。

S A S/S TA T软件6.12版本提供一个试验性过程PLS(在S AS系统8.0版本中PL S已作为正式过程提供给用户)可完成偏最小二乘回归。以下仍以经济分析数据为例介绍偏最小二乘回归。

例4:经济分析数据的偏最小二乘回归分析

解 使用PLS过程做偏最小二乘回归。以下SAS程序中选项M E THOD=规定抽取因子的方法为SIM PLS,这是一个比标准PLS更有效的算法;选项CV=ON E要求用删去一个观测的交叉确认方法决定抽取潜在因子的个数;OU TMO DEL=命名存放模型信息的输出数据集为O454(输出的部分结果见输出4.1)。

proc pls data=d2o utmodel=o ut4cv=one method=simpls;

m odel y=x1-x3;

proc print data=out4;

run;

输出4.1 经济分析数据偏最小二乘回归的结果

输出4.1的第一部分给出抽取潜在变量的个数及相应的用于度量拟合效果的预测残差平

方和(PRESS)的均方根值,并指出在L=2时预测残差平方和的均方根达最小。输出的第二部分给出第一、二个潜在变量所解释的变差的百分数(包括自变量和因变量两方面);输出的第三部分给出所拟合的模型的信息(数据集OU T4的内容)。其中OBS为2和3的行给出自变量和因变量的均值和标准差;O BS为7的行给出抽取二个潜在因子时的偏最小二乘估计,由估计值可以写出标准化回归方程为(Y~和x~表示Y和x的标准化变量):

Y~=0.477x~1+0.2212x~2+0.486x~3

用原始变量可表示为

Y=-8.2486+0.0677x1+0.6094x2+0.1070x3

以上偏最小二乘回归方程中回归系数的符号都是有意义的。偏最小二乘回归的均方根误差(0.5872)比普通最小二乘回归的均方根误差(-RM SE-=0.48887)有所增大,但增加不多。

偏最小二乘回归对研究很多因变量及很多自变量的相依关系时更能显示其特点,此例变量个数少,故没能看出太多的优点。

Some method on treating the collinearity of

independent variables in multiple linear regression

Gao Hui-x ia n

(Department of Pro bability and Statistics Peking University,Beijing100871,China) Abstract:In the paper,w e intro duced the diag no sis of co llinea rity o f independent v a riables in multiple linea r r eg r ession and discussed ho w to use the enha ncements o f the REG pro cedur e in SAS/ST A T(6.12)to dea l with the co llinearity pro blem.M ethods including selectio n of v ariables,ridg e reg ressio n,principal compo nent r eg r ession,and pa rtia l least squar es rlg r lssio n w er e intr oduced.

Key words:r egr ession;co llinearity;selectio n v ariables;ridg e r eg r ession;principa l co mpo nent r eg r essio n; par tial least squa res reg ressio n

上接48页

[参考文献]

[1] 杨维权等.多元统计分析[M].高等教育出版社,1989.

[2] 胡良平.现代统计学与SA S应用[M].北京.军事医学科学出版社,1996.

[3] 阎慈琳.关于主成分分析做综合评价的若干问题[J].数理统计与管理,1998,17(2).

[4] 欧俊豪等.城市综合经济实力的主成份分析[J].数理统计与管理1999,18(3).

[5] 国家统计局.中国城市统计年鉴.中国统计出版社,1998.

Principae Components Projection

LI Ming-yuan

(W uxi Radio and TV U niv er sity,W ux i 214021,China)

Absrtact:This a rticle intro duces to readers the principles and process o f the principal co mpo nents pr ojectio n method and makes a co mprehensiv e analy sis o f the31provinces,a utonomo us r eg io ns and municipalities dir ectly under the central g ov er nm ent and ar ra ng es them in the o rder o f their fina ncial result o bjectiv es in 1998.

Key words:multi-objectiv e decision-making;principal compo nents pro jectio n method;decisio n-ma king mat rix;decisio n-ma king v ec tor pro jectio n

excel一元及多元线性回归实例

野外实习资料的数理统计分析 一元线性回归分析 一元回归处理的是两个变量之间的关系,即两个变量X和Y之间如果存在一定的关系,则通过观测所得数据,找出两者之间的关系式。如果两个变量的关系大致是线性的,那就是一元线性回归问题。 对两个现象X和Y进行观察或实验,得到两组数值:X1,X2,…,Xn和Y1,Y2,…,Yn,假如要找出一个函数Y=f(X),使它在 X=X1,X2, …,Xn时的数值f(X1),f(X2), …,f(Xn)与观察值Y1,Y2,…,Yn趋于接近。 在一个平面直角坐标XOY中找出(X1,Y1),(X2,Y2),…,(Xn,Yn)各点,将其各点分布状况进行察看,即可以清楚地看出其各点分布状况接近一条直线。对于这种线性关系,可以用数学公式表示: Y = a + bX 这条直线所表示的关系,叫做变量Y对X的回归直线,也叫Y对X 的回归方程。其中a为常数,b为Y对于X的回归系数。 对于任何具有线性关系的两组变量Y与X,只要求解出a与b的值,即可以写出回归方程。计算a与b值的公式为:

式中:为变量X的均值,Xi为第i个自变量的样本值,为因变量的均值,Yi为第i个因变量Y的样本值。n为样本数。 当前一般计算机的Microsoft Excel中都有现成的回归程序,只要将所获得的数据录入就可自动得到回归方程。 得到的回归方程是否有意义,其相关的程度有多大,可以根据相关系数的大小来决定。通常用r来表示两个变量X和Y之间的直线相关程度,r为X和Y的相关系数。r值的绝对值越大,两个变量之间的相关程度就越高。当r为正值时,叫做正相关,r为负值时叫做负相关。r 的计算公式如下: 式中各符号的意义同上。 在求得了回归方程与两个变量之间的相关系数后,可以利用F检验法、t检验法或r检验法来检验两个变量是否显著相关。具体的检验方法在后面介绍。

eviews多元线性回归案例分析

中国税收增长的分析 一、研究的目的要求 改革开放以来,随着经济体制的改革深化和经济的快速增长,中国的财政收支状况发生了很大的变化,中央和地方的税收收入1978年为519.28亿元到2002年已增长到17636.45亿元25年间增长了33倍。为了研究中国税收收入增长的主要原因,分析中央和地方税收收入的增长规律,预测中国税收未来的增长趋势,需要建立计量经济学模型。 影响中国税收收入增长的因素很多,但据分析主要的因素可能有:(1)从宏观经济看,经济整体增长是税收增长的基本源泉。(2)公共财政的需求,税收收入是财政的主体,社会经济的发展和社会保障的完善等都对公共财政提出要求,因此对预算指出所表现的公共财政的需求对当年的税收收入可能有一定的影响。(3)物价水平。我国的税制结构以流转税为主,以现行价格计算的DGP等指标和和经营者收入水平都与物价水平有关。(4)税收政策因素。我国自1978年以来经历了两次大的税制改革,一次是1984—1985年的国有企业利改税,另一次是1994年的全国范围内的新税制改革。税制改革对税收会产生影响,特别是1985年税收陡增215.42%。但是第二次税制改革对税收的增长速度的影响不是非常大。因此可以从以上几个方面,分析各种因素对中国税收增长的具体影响。 二、模型设定 为了反映中国税收增长的全貌,选择包括中央和地方税收的‘国家财政收入’中的“各项税收”(简称“税收收入”)作为被解释变量,以放映国家税收的增长;选择“国内生产总值(GDP)”作为经济整体增长水平的代表;选择中央和地方“财政支出”作为公共财政需求的代表;选择“商品零售物价指数”作为物价水平的代表。由于税制改革难以量化,而且1985年以后财税体制改革对税收增长影响不是很大,可暂不考虑。所以解释变量设定为可观测“国内生产总值(GDP)”、“财政支出”、“商品零售物价指数” 从《中国统计年鉴》收集到以下数据 财政收入(亿元) Y 国内生产总值(亿 元) X2 财政支出(亿 元) X3 商品零售价格指 数(%) X4 1978519.283624.11122.09100.7 1979537.824038.21281.79102 1980571.74517.81228.83106

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

多元线性回归模型习题及答案

多元线性回归模型 一、单项选择题 1.在由30n =的一组样本估计的、包含3个解释变量的线性回归模型中,计算得多重决定 系数为,则调整后的多重决定系数为( D ) A. B. C. 下列样本模型中,哪一个模型通常是无效 的(B ) A. i C (消费)=500+i I (收入) B. d i Q (商品需求)=10+i I (收入)+i P (价格) C. s i Q (商品供给)=20+i P (价格) D. i Y (产出量)=0.6i L (劳动)0.4i K (资本) 3.用一组有30个观测值的样本估计模型01122t t t t y b b x b x u =+++后,在的显著性水平上对 1b 的显著性作t 检验,则1b 显著地不等于零的条件是其统计量t 大于等于( C ) A. )30(05.0t B. )28(025.0t C. )27(025.0t D. )28,1(025.0F 4.模型 t t t u x b b y ++=ln ln ln 10中,1b 的实际含义是( B ) A.x 关于y 的弹性 B. y 关于x 的弹性 C. x 关于y 的边际倾向 D. y 关于x 的边际倾向 5、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明 模型中存在( C ) A.异方差性 B.序列相关 C.多重共线性 D.高拟合优度 6.线性回归模型01122......t t t k kt t y b b x b x b x u =+++++ 中,检验0:0(0,1,2,...) t H b i k ==时,所用的统计量 服从( C ) (n-k+1) (n-k-2) (n-k-1) (n-k+2) 7. 调整的判定系数 与多重判定系数 之间有如下关系( D ) A.2 211n R R n k -=-- B. 22111 n R R n k -=--- C. 2211(1)1n R R n k -=-+-- D. 2211(1)1n R R n k -=---- 8.关于经济计量模型进行预测出现误差的原因,正确的说法是( C )。 A.只有随机因素 B.只有系统因素 C.既有随机因素,又有系统因素 、B 、C 都不对 9.在多元线性回归模型中对样本容量的基本要求是(k 为解释变量个数):( C ) A n ≥k+1 B n

SPSS多元线性回归分析实例操作步骤

SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率和房屋空置率作为变量,来研究上海房价的变动因素。 实验变量: 以年份、商品房平均售价(元/平方米)、上海市城市人口密度(人/平方公里)、城市居民人均可支配收入(元)、五年以上平均年贷款利率(%)和房屋空置率(%)作为变量。 实验方法:多元线性回归分析法 软件:spss19.0 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open; 2. Opening excel data source——OK.

第二步: 1.在最上面菜单里面选中Analyze——Regression——Linear ,Dependent(因变量)选择商品房平均售价,Independents(自变量)选择城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率、房屋空置率;Method 选择Stepwise. 进入如下界面: 2.点击右侧Statistics,勾选Regression Coefficients(回归系数)选项组中的Estimates;勾选Residuals(残差)选项组中的Durbin-Watson、Casewise diagnostics默认;接着选择Model fit、Collinearity diagnotics;点击Continue.

3.点击右侧Plots,选择*ZPRED(标准化预测值)作为纵轴变量,选择DEPENDNT(因变量)作为横轴变量;勾选选项组中的Standardized Residual Plots(标准化残差图)中的Histogram、Normal probability plot;点击Continue. 4.点击右侧Save,勾选Predicted Vaniues(预测值)和Residuals(残差)选项组中的Unstandardized;点击Continue.

多元线性回归模型公式

二、多元线性回归模型 在多要素的地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立 假设某一因变量y 受k 个自变量k x x x ,...,,21的影响,其n 组观测值为(ka a a a x x x y ,...,,,21),n a ,...,2,1=。那么,多元线性回归模型的结构形式为: a ka k a a a x x x y εββββ+++++=...22110(3、2、11) 式中: k βββ,...,1,0为待定参数; a ε为随机变量。 如果k b b b ,...,,10分别为k ββββ...,,,210的拟合值,则回归方程为 ?=k k x b x b x b b ++++...22110(3、2、12) 式中: 0b 为常数; k b b b ,...,,21称为偏回归系数。 偏回归系数i b (k i ,...,2,1=)的意义就是,当其她自变量j x (i j ≠)都固定时,自变量i x 每变化一个单位而使因变量y 平均改变的数值。 根据最小二乘法原理,i β(k i ,...,2,1,0=)的估计值i b (k i ,...,2,1,0=)应该使 ()[]min (2) 1 2211012 →++++-=??? ??-=∑∑==∧ n a ka k a a a n a a a x b x b x b b y y y Q (3、2、13) 有求极值的必要条件得 ???????==??? ??--=??=??? ??--=??∑∑=∧=∧n a ja a a j n a a a k j x y y b Q y y b Q 110) ,...,2,1(0202(3、2、14) 将方程组(3、2、14)式展开整理后得:

多元线性回归模型案例

我国农民收入影响因素的回归分析 本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。?农民收入水平的度量常采用人均纯收入指标。影响农民收入增长的因素是多方面的,既有结构性矛盾因素,又有体制性障碍因素。但可以归纳为以下几个方面:一是农产品收购价格水平。二是农业剩余劳动力转移水平。三是城市化、工业化水平。四是农业产业结构状况。五是农业投入水平。考虑到复杂性和可行性,所以对农业投入与农民收入,本文暂不作讨论。因此,以全国为例,把农民收入与各影响因素关系进行线性回归分析,并建立数学模型。 一、计量经济模型分析 (一)、数据搜集 根据以上分析,我们在影响农民收入因素中引入7个解释变量。即:2x -财政用于农业的支出的比重,3x -第二、三产业从业人数占全社会从业人数的比重,4x -非农村人口比重,5x -乡村从业人员占农村人口的比重,6x -农业总产值占农林牧总产值的比重,7x -农作物播种面积,8x —农村用电量。

资料来源《中国统计年鉴2006》。 (二)、计量经济学模型建立 我们设定模型为下面所示的形式: 利用Eviews 软件进行最小二乘估计,估计结果如下表所示: DependentVariable:Y Method:LeastSquares Sample: Includedobservations:19 Variable Coefficient t-Statistic Prob. C X1 X3 X4 X5 X6 X7 X8 R-squared Meandependentvar AdjustedR-squared 表1最小二乘估计结果 回归分析报告为: () ()()()()()()()()()()()()()()() 2345678 2? -1102.373-6.6354X +18.2294X +2.4300X -16.2374X -2.1552X +0.0100X +0.0634X 375.83 3.7813 2.066618.37034 5.8941 2.77080.002330.02128 -2.933 1.7558.820900.20316 2.7550.778 4.27881 2.97930.99582i Y SE t R ===---=230.99316519 1.99327374.66 R Df DW F ====二、计量经济学检验 (一)、多重共线性的检验及修正 ①、检验多重共线性 (a)、直观法 从“表1最小二乘估计结果”中可以看出,虽然模型的整体拟合的很好,但是x4x6

(完整word版)多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年度),并在“Start date ”中输入开始时间“1988”,在“end date ”中输入最后时间“2005”,点击“ok ”,出现“Workfile UNTITLED ”工作框。其中已有变量:“c ”—截距项 “resid ”—剩余项。在“Objects ”菜单中点击“New Objects”,在“New Objects”对话框中选“Group”,并在“Name for Objects”上定义文件名,点击“OK ”出现数据编辑窗口。 年份 人口自然增长率 (%。) 国民总收入(亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 2006 5.38 213132 1.5 16024

多元线性回归模型公式定稿版

多元线性回归模型公式 HUA system office room 【HUA16H-TTMS2A-HUAS8Q8-HUAH1688】

二、多元线性回归模型 在多要素的地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立 假设某一因变量y 受k 个自变量k x x x ,...,,21的影响,其n 组观测值为 (ka a a a x x x y ,...,,,21),n a ,...,2,1=。那么,多元线性回归模型的结构形式为: a ka k a a a x x x y εββββ+++++=...22110() 式中: k βββ,...,1,0为待定参数; a ε为随机变量。 如果k b b b ,...,,10分别为k ββββ...,,,210的拟合值,则回归方程为 ?=k k x b x b x b b ++++...22110() 式中: 0b 为常数; k b b b ,...,,21称为偏回归系数。

偏回归系数i b (k i ,...,2,1=)的意义是,当其他自变量j x (i j ≠)都固定时,自变量i x 每变化一个单位而使因变量y 平均改变的数值。 根据最小二乘法原理,i β(k i ,...,2,1,0=)的估计值i b (k i ,...,2,1,0=)应该使 ()[]min ...212211012→++++-=??? ??-=∑∑==∧n a ka k a a a n a a a x b x b x b b y y y Q () 有求极值的必要条件得 ???????==??? ??--=??=??? ??--=??∑∑=∧=∧n a ja a a j n a a a k j x y y b Q y y b Q 110),...,2,1(0202() 将方程组()式展开整理后得: ?????????????=++++=++++=++++=++++∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑===================n a a ka k n a ka n a ka a n a ka a n a ka n a a a k n a ka a n a a n a a a n a a n a a a k n a ka a n a a a n a a n a a n a a k n a ka n a a n a a y x b x b x x b x x b x y x b x x b x b x x b x y x b x x b x x b x b x y b x b x b x nb 11221211101 121221221121012111121211121011112121110)(...)()()(...)(...)()()()(...)()()()(...)()( () 方程组()式,被称为正规方程组。 如果引入一下向量和矩阵: 则正规方程组()式可以进一步写成矩阵形式 B Ab =(3.2.15’)

第三章 多元线性回归分析1

第三章 多元线性回归分析 主要内容: ? 多元线性回归模型 ? 多元线性回归模型的参数估计 ? 多元线性回归模型的统计检验 ? 多元线性回归模型的预测 ? 案例 3.1 多元线性回归模型 一、多元线性回归模型 多元线性回归模型:表现在线性回归模型中的解释变量有多个。 一般表现形式: i ki k i i i u X X X Y +++++=ββββ 22110 i=1,2,…,n 其中:k 为解释变量的数目,j β称为回归参数(regression coefficient )。 ki k i i ki i i i X X X X X X Y E ββββ+???+++=2211021),,|( 经济解释:j β也被称为偏回归系数,表示在其他解释变量保持不变的情况下,j X 每变化1个单位时, Y 的均值E(Y)的变化; 或者说j β给出了j X 的单位变化对Y 均值的“直接”或“净”(不含其他变量)影响。 样本回归函数:用来估计总体回归函数 i =1,2…,n 其随机表示式: i e 称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i u 的近似替代。 i ki ki i i i e X X X Y +++++=ββββ????22110 ki ki i i i X X X Y ββββ?????22110++++=

§3.2 多元线性回归模型的估计 一、普通最小二乘估计 对于随机抽取的n 组观测值 对样本回归函数: i=1,2…n 根据最小二乘原理,参数估计值应该是下列方程组的解 ∑∑∑===+???+++-=-==???????? ?????????=?? =?? =?? =?? n i ki k i i i n i n i i i i k X X X Y Y Y e Q Q Q Q Q 1 2 2211011 22 210))????(()?(0?0?0?0?ββββββββ其中 即 Y X X X '='β?)( 由于X X '满秩,故有 Y X X X ''=-1)(?β 随机误差项μ的方差σ的无偏估计 可以证明,随机误差项u 的方差的无偏估计量为 二、参数估计量的性质 在满足基本假设的情况下,其结构参数β的普通最小二乘估计、最大或然估计及矩估计仍具有:线性性、无偏性、有效性。 1、 线性 CY Y X X X =''=-1)(?β 其中,C =X X X ''-1 )( 为一仅与固定的X 有关的行向量 2、无偏性 3、有效性(最小方差性) 参数估计量β ?的方差-协方差矩阵 β μX X X βμX βX X X Y X X X β 11=''+=+''=''=---)()())()(())(()?(1E E E E 11 ?2 2 --'= --=∑k n k n e i e e σ Ki ki i i i X X X Y ββββ?????22110++++= k j n i X Y ji i ,2,1,0,,,2,1),,(==

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

多元线性回归模型公式().docx

二、多元线性回归模型 在多要素的地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立 假设某一因变量 y 受 k 个自变量 x 1, x 2 ,..., x k 的影响,其 n 组观测值为( y a , x 1 a , x 2 a ,..., x ka ), a 1,2,..., n 。那么,多元线性回归模型的结构形式为: y a 0 1 x 1a 2 x 2 a ... k x ka a () 式中: 0 , 1 ,..., k 为待定参数; a 为随机变量。 如果 b 0 , b 1 ,..., b k 分别为 0 , 1 , 2 ..., k 的拟合值,则回归方程为 ?= b 0 b 1x 1 b 2 x 2 ... b k x k () 式中: b 0 为常数; b 1, b 2 ,..., b k 称为偏回归系数。 偏回归系数 b i ( i 1,2,..., k )的意义是,当其他自变量 x j ( j i )都固定时,自变量 x i 每变 化一个单位而使因变量 y 平均改变的数值。 根据最小二乘法原理, i ( i 0,1,2,..., k )的估计值 b i ( i 0,1,2,..., k )应该使 n 2 n 2 Q y a y a y a b 0 b 1 x 1a b 2 x 2a ... b k x ka min () a 1 a 1 有求极值的必要条件得 Q n 2 y a y a b 0 a 1 () Q n 2 y a y a x ja 0( j 1,2,..., k) b j a 1 将方程组()式展开整理后得:

第十一章多元线性回归与logistic回归

第十一章 多元线性回归与logistic 回归 一、教学大纲要求 (一)掌握内容 1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。 2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。 3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P 值下结论。 4.logistic 回归模型结构:模型结构、发病概率比数、比数比。 5.logistic 回归参数估计方法。 6.logistic 回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。 (二)熟悉内容 常用统计软件(SPSS 及SAS )多元线性回归分析方法:数据准备、操作步骤与结果输出。 (三)了解内容 标准化偏回归系数的解释意义。 二、教学内容精要 (一) 多元线性回归分析的概念 将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系,称为多元线形回归(multiple linear regression ),简称多元回归(multiple regression ) 基本形式: 01122?k k Y b b X b X b X =+++???+ 式中Y ?为各自变量取某定值条件下应变量均数的估计值,1X ,2X ,…,k X 为自变量,k 为自变量个数,0b 为回归方程常数项,也称为截距,其意义同直线回归,1b ,2b ,…, k b 称为偏回归系数(partial regression coefficient ),j b 表示在除j X 以外的自变量固定条件下,j X 每改变一个单位后Y 的平均改变量。 (二) 多元线性回归的分析步骤 Y ?是与一组自变量1X ,2X ,…,k X 相对应的变量Y 的平均估计值。 多元回归方程中的回归系数1b ,2b ,…, k b 可用最小二乘法求得,也就是求出能使估计 值Y ?和实际观察值Y 的残差平方和22)?(∑∑-=Y Y e i 为最小值的一组回归系数1b ,2b ,…, k b 值。根据以上要求,用数学方法可以得出求回归系数1b ,2b ,…, k b 的下列正规方程组 (normal equation ):

线性回归方程中的相关系数r

线性回归方程中的相关系数r r=∑(Xi-X的平均数)(Yi-Y平均数)/根号下[∑(Xi-X平均数)^2*∑(Yi-Y平均数)^2]

R2就是相关系数的平方, R在一元线性方程就直接是因变量自变量的相关系数,多元则是复相关系数 判定系数R^2 也叫拟合优度、可决系数。表达式是: R^2=ESS/TSS=1-RSS/TSS 该统计量越接近于1,模型的拟合优度越高。 问题:在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 ——但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。 这就有了调整的拟合优度: R1^2=1-(RSS/(n-k-1))/(TSS/(n-1)) 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响: 其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。 总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。R = R接近于1表明Y与X1,X2 ,…,Xk之间的线性关系程度密切; R接近于0表明Y与X1,X2 ,…,Xk之间的线性关系程度不密切 相关系数就是线性相关度的大小,1为(100%)绝对正相关,0为0%,-1为(100%)绝对负相关 相关系数绝对值越靠近1,线性相关性质越好,根据数据描点画出来的函数-自变量图线越趋近于一条平直线,拟合的直线与描点所得图线也更相近。 如果其绝对值越靠近0,那么就说明线性相关性越差,根据数据点描出的图线和拟合曲线相差越远(当相关系数太小时,本来拟合就已经没有意义,如果强行拟合一条直线,再把数据点在同一坐标纸上画出来,可以发现大部分的点偏离这条直线很远,所以用这个直线来拟合是会出现很大误差的或者说是根本错误的)。 分为一元线性回归和多元线性回归 线性回归方程中,回归系数的含义 一元: Y^=bX+a b表示X每变动(增加或减少)1个单位,Y平均变动(增加或减少)b各单位多元: Y^=b1X1+b2X2+b3X3+a 在其他变量不变的情况下,某变量变动1单位,引起y平均变动量 以b2为例:b2表示在X1、X3(在其他变量不变的情况下)不变得情况下,X2每变动1单位,y平均变动b2单位

第10章 多元线性回归

第10章 1.在多元线性回归分析中,t 检验是用来检验( )。 A .总体线性关系的显著性 B .各回归系数的显著性 C .样本线性关系的显著性 D .H 0:β1=β2=…=βk =0, 2.在多元线性回归模型中,若自变量x i 对因变量y 的影响不显著,那么它的回归系数βi 的取值( )。 A .可能接近0 B .可能为1 C .可能小于0 D .可能大于1 3.在多元线性回归方程01122i k k y x x x ββββ=++++中,回归系数k β表示 ( )。 A .自变量x i 变动一个单位时,因变量y 的平均变动量为k β B .其他变量不变的条件下,自变量x i 变动一个单位时,因变量y 的平均变动量为k β C .其他变量不变的条件下,自变量x i 变动一个单位时,因变量y 的总变动总量为k β D .因变量y 变动一个单位时,自变量x i 的变动总量为k β 4.在多元回归分析中,通常需要计算调整的多重判定系数R 2,这样可以避免R 2的值( )。 A .由于模型中自变量个数的增加而越来越接近1 B .由于模型中自变量个数的增加而越来越接近0 C .由于模型中样本量的增加而越来越接近1 D .由于模型中样本量的增加而越来越接近0 5.在多元线性回归分析中,如果F 检验表明线性关系显著,则意味着( )。 A .在多个自变量中至少有一个自变量与因变量之间的线性关系显著 B .所有的自变量与因变量之间的线性关系都显著 C .在多个自变量变中至少有一个自变量与因变量之间的线性关系不显著 D .所有的自变量与因变量之间的线性关系都不显著 6.在多元线性回归分析中, 如果t 检验表明回归系数βi 不显著,则意味着( )。 A .整个回归方程的线性关系不显著 B .整个回归方程的线性关系显著 C .自变量x i 与因变量之间的线性关系不显著 D .自变量x i 与因变量之间的线性关系显著 7.在多元线性回归分析中,多重共线性是指模型中( )。 A .两个或两个以上的自变量彼此相关 B .两个或两个以上的自变量彼此无关

多元线性回归模型的案例讲解

多元线性回归模型的案 例讲解 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/ 千克) 1980 397 1992 911 1981 413 1993 931 1982 439 1994 1021 1983 459 1995 1165 1984 492 1996 1349 1985 528 1997 1449 1986 560 1998 1575 1987 624 1999 1759 1988 666 2000 1994 1989 717 2001 2258 1990 768 2002 2478 1991 843 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

所以,回归方程为: 123ln 0.73150.3463ln 0.5021ln 0.1469ln 0.0872ln Y X P P P =-+-++ 由上述回归结果可以知道,鸡肉消费需求受家庭收入水平和鸡肉价格的影响,而牛肉价格和猪肉价格对鸡肉消费需求的影响并不显着。 验证猪肉价格和鸡肉价格是否有影响,可以通过赤池准则(AIC )和施瓦茨准则(SC )。若AIC 值或SC 值增加了,就应该去掉该解释变量。 去掉猪肉价格P 2与牛肉价格P 3重新进行回归分析,结果如下: Variable Coefficient Std. Error t-Statistic Prob.?? C LOG(X) LOG(P1) R-squared ????Mean dependent var Adjusted R-squared ????. dependent var . of regression ????Akaike info criterion Sum squared resid ????Schwarz criterion Log likelihood ????F-statistic Durbin-Watson stat ????Prob(F-statistic)

多元线性回归模型公式

二、多元线性回归模型 在多要素得地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联得情况。因此,多元地理回归模型更带有普遍性得意义。 (一)多元线性回归模型得建立 假设某一因变量y 受k 个自变量得影响,其n 组观测值为(),。那么,多元线性回归模型得结构形式为: (3.2.11) 式中: 为待定参数; 为随机变量。 如果分别为得拟合值,则回归方程为 ?=(3.2.12) 式中: 为常数; 称为偏回归系数。 偏回归系数()得意义就就是,当其她自变量()都固定时,自变量每变化一个单位而使因变量y 平均改变得数值。 根据最小二乘法原理,()得估计值()应该使 ()[]min (2) 1 2211012 →++++-=??? ??-=∑∑==∧ n a ka k a a a n a a a x b x b x b b y y y Q (3.2.13) 有求极值得必要条件得 (3.2.14) 将方程组(3.2.14)式展开整理后得: ??????????? ?? =++++=++++=++++=++++∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑===================n a a ka k n a ka n a ka a n a ka a n a ka n a a a k n a ka a n a a n a a a n a a n a a a k n a ka a n a a a n a a n a a n a a k n a ka n a a n a a y x b x b x x b x x b x y x b x x b x b x x b x y x b x x b x x b x b x y b x b x b x nb 11221211101 1 212212 2112101 21111212111210111 12121110)(...)()()(...)(...)()()()(...)()()()(...)()( (3.2.15) 方程组(3.2.15)式,被称为正规方程组。 如果引入一下向量与矩阵: ??? ??? ? ? ? ????????? ??==kn n n k k k kn k k k n n T x x x x x x x x x x x x x x x x x x x x x x x x X X A ...1..................1...1...1... ...... ... ............1 (1112132313222121211132) 1 2232221 1131211

多元线性回归实例分析报告

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要就是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程 为: 毫无疑问,多元线性回归方程应该 为: 上图中的 x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差, 其中随机误差分为:可解释的误差与不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须就是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内, 将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,您也可以选择其它的方式,如果您选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果您选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该就是跟“因变量”关系最为密切,

相关主题
文本预览
相关文档 最新文档