当前位置:文档之家› 多重共线性和非线性回归的问题

多重共线性和非线性回归的问题

多重共线性和非线性回归的问题
多重共线性和非线性回归的问题

多重共线性和非线性回归的问题

前几天她和我说,在百度里有个人连续追着我的回答,三次说我的回答错了。当时非常惊讶,赶紧找到那个回答的问题,看看那个人是怎么说。最终发现他是说多重共线性和非线性回归的问题,他认为多个自变量进行不能直接回归,存在共线性的问题,需要进行因子分析(或主成分分析);说非线性回归不能转换成线性回归的方法,这里我详细说说这两方面的问题到底是怎么回事(根据我的理解),我发现很多人很怕这个多重共线性的问题,听到非线性回归,脑袋就更大了。。。

(1)多重共线性问题

我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看:

第一个,是最熟悉也是最方便的——逐步回归法。

逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。

第二个,通过因子分析(或主成分分析)再进行回归。

这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。

第三个,岭回归。

通过逐步回归时,我们可能得到几个自变量进入方程中,但是有时会出现自变量影响的方向出现错误,比如第一产业的产值对国民收入是正效应,而可能方程中的系数为负的,这种肯定是由于共线性导致出现了拟合失真的结果,而这样的结果我们只能通过自己的经验去判断。通常我们在做影响因素判断的时候,不仅希望得到各个因素对因变量真实的影响关系,还希望知道准确的影响大小,就是每个自变量系数的大小,这个时候,我们就可以通过岭回归的方法。

岭回归是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子k,从而使回归系数的估计稍有偏差、而估计的稳定性却可能明显提高的一种回归分析方法,它是最小二乘法的一种补充,岭回归可以修复病态矩阵,达到较好的效果。在SPSS中没有提供岭回归的模块,可以直接点击使用,只能通过编程来实现,当然在SAS、Matlab中也可以实现。做岭回归的时候,需要进行多次调试,选择适当的k值,才能得到比较满意的方程,现在这个方法应用越来越普遍。在07年的时候,我的一个老师还觉得这个方法是他的看家本领,但是现在很多人都会这个方法,而且用的越来越多了,得到的结果也非常合理。

特别提醒的是:多重共线性说的是变量之间线性关系,和非线性不要混淆了。多组变量之间两种极端的关系是完全多重共线性关系和完全非线性关系,即完全是平行直线的关系和完全无规则的曲线关系(是什么形状,还真不好形容,自己悟去吧^_^)。当然解决多重共线性问题的方法还有,比如差分微分模型,应用的很少,我估计是非常专业的人才会用的吧,呵呵,反正我不会这个方法。接下来说说非线性回归。

(2)非线性回归的问题。

非线性回归,顾名思义自变量和因变量是非线性的关系,比如平方、次方等等,但是大多数的非线性方程都可以转换成线性的方程,比如我们通常知道的二次函数:

y=a0+a1*x+a2*x^2,这里就可以转换成线性方程,首先将x^2计算得到x1,方程就变成

y=a0+a1*x+a2*x1,而这个方程就是我们一般见到的多元线性回归,直接进行线性拟合就可以了。

这里需要特别提醒的是:我说的可以转换成线性的非线性方程,是一元非线性方程,而不是多元非线性方程。我们知道在SPSS回归分析中有单独一个模块叫曲线估计,它里面提供的11个非线性模型都是可以转换成线性模型的,而且在进行系数拟合的时候都是通过转换成线性方程进行拟合的,这就是为什么同样是非线性方程,在曲线估计里面不需要输入系数的初始值,而在非线性回归中却要输入。

将非线性方程转换成线性方程再进行拟合,不是因为我们不会做非线性拟合,而改成线性拟合我就会做了,主要原因不是因为这个。而是因为同样的非线性方程拟合比转换成的线性方程拟合误差更大一些,而且由于迭代次数的增多,计算时间会更长,由于我们平时计算的数据不是很多,这种感觉不是非常明显,但是当我们做实际问题的时候,特别是规划问题中,我们将非线性方程转换成线性方程时,计算速度会明显加快。还有一个原因是,做非线性回归的时候,我们要在拟合之前设置初始值,而初始值的选择直接影响后面系数的确定,你改变初始值,拟合出来的系数都会发生变化,这样也会增加非线性回归产生的误差,前面说的误差是计算上产生的误差,而这里是人为经验上产生的误差。因此在做非线性回归时,如果能转换成线性回归,一定转换成线性的来做。

说到那个人,他在留言中说,这样我没有考虑到转换之后自变量之间的多重共线性,不能这样做,还声嘶力竭的喊我误人子弟。这里我要详细说明是怎么回事,要不要考虑这里的多重共线的问题,如果他也能看到更好。一般我们做回归分析的时候,通常第一步看自变量和因变量之间的散点图,通过散点图我们大致判断两者之间存在怎么的关系,再来选择适当的模型。而通常我们不知道具体选择哪个模型,可以选择几个可能相似的模型比较一下,选择一个拟合效果最好的。这里比如说两个变量之间知道是非线性的,但是不知道是二次的、三次的还是四次及以上的关系(通常次方数越低越好),你可以同时考虑,然后根据拟合的结果来判断。如将方程设置为:y=a0+a1*x+a2*x^2+a3*x^3+a4*x^4,转换成线性方程就是:

y=a0+a1*x+a2*x2+a3*x3+a4*x4,而这里需不需要考虑这四个自变量之间的共线性呢,上面说过,多重共线性指的是变量之间的线性关系,而这里的四个自变量他们是非线性的关系(x、

x^2、x^3、x^4),即使他们的线性相关系数很高(这是因为二次或者三次曲线用直线拟合得

到效果也不错,但是我们知道他们之间的确是非线性的关系,而不是线性关系),因此,我们可以他们的多重共线性,在拟合的时候,选择逐步回归法,也可以不考虑,选择直接进入法,两者得到的结果几乎一样,我亲自试验了。如果得到的结果的确有四次方的关系,那么x4自

变量就会通过检验,我们可以通过检验来判断两个变量到底存在什么样的曲线关系。

这样还需要简单说下多元非线性回归,多元非线性回归也可以进行转换,但是转换完之后就必须要考虑变量之间的多重共线性了,因为我们不能明确的知道转换之后的自变量是否不存在线性的关系。上次有个人在百度里提问说,我有十几个自变量,想做非线性回归,我们一般不推荐这么多自变量做多元非线性回归,除非你发现十几个自变量都和因变量存在非线性的关系。因为多元非线性回归计算非常复杂,迭代次数非常庞大,而得到的结果也不尽如人意。

好了,这些都是根据我自己的理解和经验来写的,如果一不小心被统计高手或者老师看到,如发现说的不对的地方,请一定要在下面指正出来,非常感谢。

第4节回归诊断方法检验所选模型中的各变量之间共线性(即某些自变量之间有线性关系)情况;根据模型推算出与自变量取各样本值时对应的因变量的估计值y^,反过来检验所测得的

Y是否可靠,胀是回归诊断的2项 -

第4节回归诊断方法

检验所选模型中的各变量之间共线性(即某些自变量之间有线性关系)情况;根据模型推算出与自变量取各样本值时对应的因变量的估计值y^,反过来检验所测得的Y是否可靠,胀是

回归诊断的2项主要任务。

下面就SAS系统的REG过程运行后不同输出结果,仅从回归诊断方面理解和分析说明如下: 1.用条件数和方差分量来进行共线性诊断

各入选变量的共线性诊断借助SAS的MODEL语句的选择项COLLIN或COLLINOINT来完成。二者都给出信息矩阵的特征根和条件数 (Condition Number),还给出各变量的方差在各

主成分上的分解(Decomposition),以百分数的形式给出,每个入选变量上的方差分量之和为1。COLLIN和COLLINOINT的区别在于后者对模型中截距项作了校正。当截距项无显著性时,看由COLLIN输出的结果;反之,应看由COLLINOINT输出的结果。

(1)条件数

先求出信息矩阵杸X'X枈的各特征根, 条件指数(condition indices)定义为: 最大特征根与每个特征根比值的平根,其中最大条件指数k称为矩阵杸X'X枈的条件数。

条件数大,说明设计矩阵有较强的共线性,使结果不稳定,甚至使离开试验点的各估计值或预测值毫无意义。

直观上,条件数度量了信息矩阵X'X的特征根散布程度,可用来判断多重共线性是否存在以及多重共线性严重程度。在应用经验中,若0<k<10,则认为没有多重共线性;10≤k≤30,则认为存在中等程度或较强的多重共线性;k>30,则认为存在严重的多重共线性。(2)方差分量

强的多重共线性同时还会表现在变量的方差分量上∶对大的条件数同时有2个以上变量的方差分量超过50%,就意味这些变量间有一定程度的相关。

2.用方差膨胀因子来进行共线性诊断

(1)容许度(Tolerance,在Model语句中的选择项为TOL)

对一个入选变量而言,该统计量等于1- R2,这里R2是把该自变量当作因变量对模型中所有其余回归变量的决定系数, R2大(趋于1),则1-R2=TOL小(趋于0),容许度差,该变量不由其他变量说明的部分相对很小。

(2)方差膨胀因子(VIF)

VIF=1/TOL,该统计量有人译为“方差膨胀因子”(VarianceInflation Factor),对于不好的试验设计,VIF的取值可能趋于无限大。VIF达到什么数值就可认为自变量间存在共线性?尚无正规的临界值。[陈希孺、王松桂,1987]根据经验得出∶VIF>5或10时,就有严重的多重共线性存在。

3.用学生化残差对观测点中的强影响点进行诊断

对因变量的预测值影响特别大,甚至容易导致相反结论的观测点,被称为强影响点(In- fluence Case)或称为异常点(Outlier)。有若干个统计量(如∶Cook' D统计量、hi统计量、STUDENT统计量、RSTUDENT统计量等,这些统计量的定义参见本章第6节)可用于诊断哪些点对因变量的预测值影响大,其中最便于判断的是学生化残差STUDENT统计量。当该统计量的值大于2时,所对应的观测点可能是异常点,此时,需认真核对原始数据。若属抄写或输入数据时人为造成的错误,应当予以纠正;若属非过失误差所致,可将异常点剔除后再作回归分析。如果有可能,最好在此点上补做试验,以便进一步确认可疑的“异常点”是否确属异常点。

第5节用各种筛选变量方法编程的技巧

从本章第3节可知,有多种筛选变量的方法,这些方法中究竟哪一种最好?没有肯定的答复。最为可行的做法是对同一批资料多用几种筛选变量的方法,并结合专业知识从中选出相对优化的回归模型。

判断一个回归模型是否较优,可从以下两个方面考虑∶其一,整个回归模型及模型中各回归参数在统计学上有显著性意义、在专业上(特别是因变量的预测值及回归方程的精度)有实际意义;其二,在包含相同或相近信息的前提下,回归方程中所包含的变量越少越好。下面利用一个小样本资料,通过一个较复杂的 SAS程序,展示如何用各种筛选变量的方法实现回归分析、如何用已求得的回归方程对资料作进一步的分析的技巧。

[例4.2.3]α-甲酰门冬酰苯丙氨酸甲酯(FAPM)是合成APM的关键中间体之一。试验表明,影响FAPM收率的主要因素有∶原料配比(r)、溶剂用量(p1)、催化剂用量(p2)及反应时间(t)等4个因素,现将各因素及其具体水平的取值列在下面。

影响FAPM合成收率的因素和水平∶

因素各水平的代码 1234567

r 原料配比 0.80 0.87 0.94 1.01 1.08 1.15 1.22

p1 溶剂用量(ml)10 15 20 25 30 35 40

p2 催化剂用量(g) 1.0 1.5 2.0 2.5 3.0 3.5 4.0

t 反应时间(h) 1234567

研究者按某种试验设计方法选定的因素各水平的组合及其试验结果如下,试用回归分析方法分析此资料(注∶权重仅为相同试验条件下重复实验运行的次数)。

编号 r p1p2 t Y(收率,%)权重

1 0.80 15 2.0 6 71.5 3

2 0.87 25 3.5 5 71.2 2

3 0.9

4 3

5 1.5 4 72.8 3

4 1.01 10 3.0 3 69.7 2

5 1.08 20 1.0 2 67.5 3

6 1.15 30 2.5 1 67.3 3

7 1.22 40 4.0 7 71.8 3

[SAS程序]──[D4P17.PRG]

OPTIONS PS=70;

DATA ex3;

INPUT r p1p2t y w;

rp1=r*p1;rt=r*t;p1t=p1*t;

r2=r*r;t2=t*t;p12=p1*p1;p22=p2*p2;

* 这里产生的7个新变量代表因素之间的交互作用;

CARDS;

0.80 15 2.0 6 71.5 3

0.87 25 3.5 5 71.2 2

0.94 35 1.5 4 72.8 3

1.01 10 3.0 3 69.7 2

1.08 20 1.0 2 67.5 3

1.15 30

2.5 1 67.3 3

1.22 40 4.0 7 71.8 3

;RUN;

PROC REG ;

* 用下列模型语句选择喝较回归模型;

MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=FORWARD;

* 模型1用向前选择法筛选变量;

MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=BACKWARD;

* 模型2用向后消去法筛选变量;

MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=STEPWISE;

* 模型3用逐步筛选法筛选变量;

MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t / SELECTION=MAXR START=1 STOP=5;

* 模型4用最大R2增量法筛选变量;

MODEL y=r r2 p1 p12 p2 p22 t t2 rp1 rt p1t /SELECTION=MINR START=1 STOP=5;

* 模型5用最小R2增量法筛选变量;

MODEL y=t t2 p12 r rp1 / SELECTION=RSQUARE BEST=30 STOP=5;

* 模型6用R2增量法筛选变量;

MODEL y=t t2 p12 r rp1 / SELECTION=ADJRSQ BEST=30 STOP=5;

* 模型7用修正R2增量法筛选变量;

MODEL y=t t2 p12 r rp1 / SELECTION=CP BEST=40 STOP=5;

* 模型8用Cp统计量法筛选变量;

RUN;

* 用选好的模型分析数据,并给出关于模型的各种统计量(计权重);

PROC REG;

WEIGHT w;

MODEL y=r rp1 p12 t2 / SELECTION=NONE P CLI INFLUENCE STB COLLIN COLLINOINT; RUN;

DATA b; * 先将原始数据放入数据集b ;

SET ex3 END=EOF; OUTPUT;

* 再按照r , p1 , t的合理范围形成y为缺失的数据也放入数据集b;

IF EOF THEN DO; y=.;

DO r=0.8 TO 1.22 BY .7;do p1=10 to 40 BY 5;DO t=1 TO 7;

rp1=r*p1; rt=r*t; p1t=p1*t; r2=r*r;t2=t*t;p12=p1*p1;

OUTPUT;

END;END;END;END;RUN;

* 按原始数据回归,却可得到r、p1、t的新组合所对应的估计值y^;

PROC REG DATA=b ;

WEIGHT w;

MODEL y=r rp1 p12 t2 / P CLI CLM COLLINOINT STB R VIF;

OUTPUT OUT=d1 PREDICTED=pdc;

RUN;

PROC PRINT DATA=d1;RUN;

PROC SORT DATA=d1(KEEP=r p1 t pdc);BY DESCENDING pdc;RUN;

DATA c;

SET d1;FILE PRINT;

TITLE '40 best combinations of r p1 t ';

IF _N_<=40 THEN PUT' r='r:4.2' p1='p1:2.0' t=' t:1.0' y=' pdc:8.5;

* 对于各因素各水平取值区间的不同组合,求出估计值,列出其中40个收率较高的组合;

RUN;

[SAS程序修改指导]至于模型1~模型8等号右边每次究竟应该写哪些自变量(含它们的交互作用项),基本上是在结合专业知识的基础上凭经验进行摸索,一般需多次调试。若观测点数n远远大于自变量的个数k时,可将全部自变量放入MODEL语句中,用不同的方法进行筛选;若n≤k,有些方法最多只能用n-1个变量参入筛选。

[说明]此程序的输出结果太多,从略。

第6节与回归分析有关的重要统计术语和统计量的注解

1.R-square(决定系数、复(全)相关系数平)

(1)复相关系数为因变量的观测值y与估计值(y^)之间的简单线性相关系数

(2)决定系数

其中,各入选变量总的回归贡献(即回归离差平和)SSR可分别表示成下列①、②两种形式∶

①(即各回归系数与Siy相乘再求和,其中。

②(即总离均差平和与总误差平和之差)。

2.校正的R2adj(Adjusted R-square )

R2随模型中的变量的增加而增加,且不会减小,模型中的变量太多可能因共线性而不稳定,所以看一个模型好坏,不仅要看R2,而且还应看R2adj,后者对自由度(也即变量数)作了校正。

3.Mallows' Cp统计量

当从k个回归变量中选出p个时,为鉴别模型好坏,可用Mallows' Cp统计量(一般认为, Cp近似等于p较好),它与总观测数(n)、MODEL语句所考虑的总变量数(k)、运算中当前选入模型的变量数(p)、总的误差平和(SSEk)、该模型的误差平和(SSEp)有关:

此式中的第1项还可用下面两种表达形式∶①MSEp·(n-p-1)/MSEk ;②SSEp/MSEk Cp的定义公式中第1项的3种形式是等式变换,注意到下面两个均方的定义,则不难看懂它们之间的关系。MSEp=SSEp/(n-p-1)、 MSEk=SSEk/(n-k-1)。

4.剩余或残差(Residual)

①普通残差, RESIDi=ei=yi-y^i ;

②学生化残差Studentized residual, STUDENTi=ei/STDERR(ei) ;

③学生化剔除残差Studentized deleted residual, (有人称为刀切法残差Jackknife residual),

RSTUDENT=ei/(S(i)*p),在MODEL语句中加上INFLUENCE后就会给出各点上RSTUDENT统计量的值,如果单用选择项R,只给出普通残差和STUDENT的计算结果。

④预测平和,Press=∑ni=1[ei/(1-hi)]2,它度量了全模型的优劣。

5.,这是第i个观测点上因变量总体均数估计值μ^i的标准误差;

6.,这是y^i的标准误差;

7.,估计因变量在第i个观测点上总体均数的置信区间;

8.,估计因变量在第i个观测点上个体值的容许区间;

以下是SAS中诊断强影响点时用到的几个统计量∶

9.leverage(在回归诊断中起“杠杆”作用的量)──

或者说是H矩阵主对角线上的第i个元素,,称为Hat Matrix(即帽子矩阵)。hi是第i次观测自变量各取值在模型中作用的量度,0≤hi≤1,如果hi大,则第i次观测在模型中的作用大。

10.COOK'S D(库克距离)统计量

对某一观测引起的影响(INFLUENCE)的度量,通过计算此观测在模型中和不在模型中引起COOK'S D统计量的变化来衡量。[约瀚·内特等,1990]认为∶COOK'S D>50%时,就可以认为第i个观测点对回归函数的拟合有强的影响。

COOK'S

其中k为模型中参数个数(包括截距), STUDENT意义与上述的“4”中相同。

11.,

这是去掉第i个观测点后求得的协方差矩阵的行列式之值,Belsley,Kuh,and Welsch等人建议∶若|COVRATIO-1|≥3(p+i),则第i个观测点值得引起注意。

12.,

此值大于2,表明第i个点影响较大。

13.,

此值大于2,表明第i个点影响较大。其中为矩阵的第j行第j列上的元素。

以上各式中的有关符号的含义说明如下∶

①S2为回归模型的均方误差,即;

②STDERR(ei)为残差ei之标准误差,;

③S(i)为除掉第i个观测点后算得的残差ei之标准误差;

④n为总观测数;p为选入模型中的变量数;模型中包括截距时i取为1、模型中不包括截距时i取为0;det( )代表求矩阵()的行列式之值。

什么是主成分分析 (principal component analysis)?

对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp,它们都是的相关性, 一时难以综合。这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主

要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各

代表某一方面的性质。

任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项

指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一

项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。

1.主成分的一般定义

设有随机变量X1,X2,…,Xp,其样本均数记为,,…,,样本标准差记为S1,

S2,…,Sp。首先作标准化变换

我们有如下的定义:

(1) 若C1=a11x1+a12x2+ … +a1pxp,,且使 Var(C1)最大,则称C1为第一主成分;

(2) 若C2=a21x1+a22x2+…+a2pxp,,(a21,a22,…,a2p)垂直于(a11,a12,…,a1p),且

使Var(C2)最大,则称C2为第二主成分;

(3) 类似地,可有第三、四、五…主成分,至多有p个。

2. 主成分的性质

主成分C1,C2,…,Cp具有如下几个性质:

(1) 主成分间互不相关,即对任意i和j,Ci 和Cj的相关系数 Corr(Ci,Cj)=0 i 1 j

(2) 组合系数(ai1,ai2,…,aip)构成的向量为单位向量,

(3) 各主成分的方差是依次递减的,即 Var(C1)≥Var(C2)≥…≥Var(Cp)

(4) 总方差不增不减,即 Var(C1)+Var(C2)+ … +Var(Cp) =Var(x1)+Var(x2)+ … +Var(xp)=p

这一性质说明,主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信

息量,也不减少总信息量。

(5) 主成分和原变量的相关系数 Corr(Ci,xj)=aij =aij

(6) 令X1,X2,…,Xp的相关矩阵为R, (ai1,ai2,…,aip)则是相关矩阵R的第i个特征

向量(eigenvector)。而且,特征值li就是第i主成分的方差,即 Var(Ci)= li,其中li为相关矩阵

R的第i个特征值(eigenvalue) l1≥l2≥…≥lp≥0

3. 主成分的数目的选取

前已指出,设有p个随机变量,便有p个主成分。由于总方差不增不减,C1,C2等前几个综

合变量的方差较大,而Cp,Cp-1等后几个综合变量的方差较小, 严格说来,只有前几个综合变

量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略

后几个。

保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标

志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比便可决定保留几个主成分;

如果多留一个主成分,累积方差增加无几,便不再多留。

4.主成分回归

主成分分析本身往往并不是目的,而是达到目的的一种手段。因此,它多用在大型研究项目的某个中间环节。例如,把它用在多重回归中,便产生了主成分回归。另外,它还可以用于聚类、判别分析等。本节主要介绍主成分回归。

在多重回归曾指出,当自变量间高度相关时,某些回归参数的估计值极不稳定,甚至出现有悖常理、难以解释的情形。这时,可先采用主成分分析产生若干主成分,它们必定会将相关性较强的变量综合在同一个主成分中,而不同的主成分又是互相独立的。只要多保留几个主成分,原变量的信息不致过多损失。然后,以这些主成分为自变量进行多重回归就不会再出现共线性的困扰。如果原有p个自变量X1,X2,…,Xp,那么,采用全部p个主成分所作回归完全等价于直接对原变量的回归;采用一部分主成分所作回归虽不完全等价于对原变量的回归,但往往能摆脱某些虚假信息,而出现较合理的结果。

以上思路也适用于判别分析,当自变量高度相关时,直接作判别分析同样有多重共线性问题,可先计算自变量的主成分,然后通过主成分估计判别函数。

非线性回归分析

SPSS—非线性回归(模型表达式)案例解析 2011-11-16 10:56 由简单到复杂,人生有下坡就必有上坡,有低潮就必有高潮的迭起,随着SPSS 的深入学习,已经逐渐开始走向复杂,今天跟大家交流一下,SPSS非线性回归,希望大家能够指点一二! 非线性回归过程是用来建立因变量与一组自变量之间的非线性关系,它不像线性模型那样有众多的假设条件,可以在自变量和因变量之间建立任何形式的模型非线性,能够通过变量转换成为线性模型——称之为本质线性模型,转换后的模型,用线性回归的方式处理转换后的模型,有的非线性模型并不能够通过变量转换为线性模型,我们称之为:本质非线性模型 还是以“销售量”和“广告费用”这个样本为例,进行研究,前面已经研究得出:“二次曲线模型”比“线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的趋势变化”,那么“二次曲线”会不会是最佳模型呢? 答案是否定的,因为“非线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的变化趋势” 下面我们开始研究: 第一步:非线性模型那么多,我们应该选择“哪一个模型呢?” 1:绘制图形,根据图形的变化趋势结合自己的经验判断,选择合适的模型 点击“图形”—图表构建程序—进入如下所示界面:

点击确定按钮,得到如下结果:

放眼望去, 图形的变化趋势,其实是一条曲线,这条曲线更倾向于"S" 型曲线,我们来验证一下,看“二次曲线”和“S曲线”相比,两者哪一个的拟合度更高! 点击“分析—回归—曲线估计——进入如下界面

在“模型”选项中,勾选”二次项“和”S" 两个模型,点击确定,得到如下结果: 通过“二次”和“S “ 两个模型的对比,可以看出S 模型的拟合度明显高于

常见非线性回归模型

常见非线性回归模型 1.简非线性模型简介 非线性回归模型在经济学研究中有着广泛的应用。有一些非线性回归模型可以通 过直接代换或间接代换转化为线性回归模型,但也有一些非线性回归模型却无 法通过代换转化为线性回归模型。 柯布—道格拉斯生产函数模型 y AKL 其中L和K分别是劳力投入和资金投入, y是产出。由于误差项是可加的, 从而也不能通过代换转化为线性回归模型。 对于联立方程模型,只要其中有一个方程是不能通过代换转化为线性,那么这个联立方程模型就是非线性的。 单方程非线性回归模型的一般形式为 y f(x1,x2, ,xk; 1, 2, , p) 2.可化为线性回归的曲线回归 在实际问题当中,有许多回归模型的被解释变量y与解释变量x之间的关系都不是线性的,其中一些回归模型通过对自变量或因变量的函数变换可以转化为

线性关系,利用线性回归求解未知参数,并作回归诊断。如下列模型。 (1)y 0 1e x (2)y 0 1x2x2p x p (3)y ae bx (4)y=alnx+b 对于(1)式,只需令x e x即可化为y对x是线性的形式y01x,需要指出的是,新引进的自变量只能依赖于原始变量,而不能与未知参数有关。 对于(2)式,可以令x1=x,x2=x2,?,x p=x p,于是得到y关于x1,x2,?, x p 的线性表达式y 0 1x12x2 pxp 对与(3)式,对等式两边同时去自然数对数,得lnylnabx ,令 y lny, 0 lna, 1 b,于是得到y关于x的一元线性回归模型: y 0 1x。 乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为yt本身是异方差的,而lnyt是等方差的。加性误差项模型认为yt是等 方差的。从统计性质看两者的差异,前者淡化了y t值大的项(近期数据)的作用, 强化了y t值小的项(早期数据)的作用,对早起数据拟合得效果较好,而后者则 对近期数据拟合得效果较好。 影响模型拟合效果的统计性质主要是异方差、自相关和共线性这三个方面。 异方差可以同构选择乘性误差项模型和加性误差项模型解决,必要时还可以使用 加权最小二乘。

可线性化的回归分析

1.2可线性化的回归分析学案备注【学习目标】 1.能直观的判断两个变量是否满足线性相关 2.用非线性的函数关系来描述不好用线性关系刻画的两个 变量之间的关系 【重点、难点】用非线性的函数关系来描述不好用线性关系 刻画的两个变量之间的关系 【自主学习】 1.若两个变量不呈现线性关系,不能直接利用线性回归方程 建立两个变量的相关关系,那我们应如何建立两个变量的 关系?例如bx y=怎么化成线性相关问题解决?(阅读教 ae 材第9页到13页) 2. 在具体问题中,我们首先应该作出原始数据) x , (y 的,从中看出数据的大致规律,再 根据这个规律选择适当的函数进行拟合。 3. 对于非线性回归模型一般可转化为模 型从而得到相应的回归方程。 4.几种能转化为线性回归模型的非线性回归模型 (1)幂函数曲线x ab y=,作变换____________,得线性函数__________________ (2)指数曲线bx ae y=,作变换______________,得线性函数_______________

(3)倒指数曲线x b ae y =,作变换______________得线性函数 ________________ (4)对数曲线x b a y ln +=,作变换_______________得线性函数_____________ 【例题分析】 例1.(1)有5组(x,y )数据(1,3),(2,4),(4,5),(3,10),(10,12),去掉一组______数据后,剩下的四组数据的线性相关系数最大。 (2)已知幂函数曲线b ax y =做线性变换后得到的回归方程为v u 4.02+=,则a=_______,b=__________ 例2.为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下: 天数 x /天 1 2 3 4 5 繁殖个数y /个 6 12 25 49 95 (1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)试求出预报变量对解释变量的回归方程.(答案:所求 非线性回归方程为0.69 1.112?y =e x +.) 小结:利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.

(完整版)线性回归方程——非线性方程转化为线性方程

线性回归方程——非线性方程转化为线性方程 例1.(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费x i 和年销售量y i (i =1,2,?,8)数据作了初步处理,得到下面的散点图及一些统计量的值. x? y ? w ? 46.6 563 6.8 289.8 1.6 1469 108.8 表中w i =√x i ,w ? =1 8 ∑w i 8i=1, ,I )根据散点图判断,y =a +bx 与y =c +d √x ,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由); ,II )根据(I )的判断结果及表中数据,建立y 关于x 的回归方程; (III )已知这种产品的年利润z 与x ,y 的关系为z =0.2y ?x ,根据(II )的结果回答下列问题: (i )年宣传费x =49时,年销售量及年利润的预报值是多少? (ii )年宣传费x 为何值时,年利润的预报值最大? 附:对于一组数据(u 1,v 1) (u 2,v 2) ,…,(u n ,v n ) 其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β ?=∑ (u i ?u)(v i ?v) n i=1∑(u i ?u)2 n i=1,α?=v ?β ?u . 【答案】(Ⅰ)y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型;(Ⅱ)y ?=100.6+68√x ;(Ⅲ)(i)答案见解析;(ii)46.24千元. 【解析】(I )由散点图可以判断,y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (II )令w =√x ,先建立y 关于w 的线性回归方程,由于d ?=∑(w i ?w)(y i ?y) 8 i=1∑(w i ?w)28 i=1= 108.81.6 =68, ∴c?=y ?d ?w =563?68×6.8=100.6, ∴y 关于w 的线性回归方程为y ?=100.6+68w , 因此y 关于x 的回归方程为y ?=100.6+68√x . (III )(ⅰ)由(II )知,当x =49时,年销售量y 的预报值y ?=100.6+68√49=576.6, 年利润z 的预报值为z?=576.6×0.2?49=66.32. ,ⅱ)根据(II )的结果知,年利润z 的预报值z?=0.2(100.6+68√x)?x =?x +13.6√x +20.12, 所以当√x =13.62 =6.8,即x =46.24时,z?取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.

计量经济学基础_非线性回归模型

第四节 非线形回归模型 一、 可线性化模型 在非线性回归模型中,有一些模型经过适当的变量变换或函数变换就可以转化成线性回归模型,从而将非线性回归模型的参数估计问题转化成线性回归模型的参数估计,称这类模型为可线性化模型。在计量经济分析中经常使用的可线性化模型有对数线性模型、半对数线性模型、倒数线性模型、多项式线性模型、成长曲线模型等。 1.倒数模型 我们把形如: u x b b y ++=110;u x b b y ++=1110 (3.4.1) 的模型称为倒数(又称为双曲线函数)模型。 设:x x 1*=,y y 1*=,即进行变量的倒数变换,就可以将其转化成线性回归模型。 倒数变换模型有一个明显的特征:随着x 的无限扩大,y 将趋于极限值0b (或0/1b ),即有一个渐进下限或上限。有些经济现象(如平均固定成本曲线、商品的成长曲线、恩格尔曲线、菲利普斯曲线等)恰好有类似的变动规律,因此可以由倒数变换模型进行描述。 2.对数模型 模型形式: u x b b y ++=ln ln 10 (3.4.2) (该模型是将u b e Ax y 1=两边取对数,做恒等变换的另一种形式,其中A b ln 0=)。 上式lny 对参数0b 和1b 是线性的,而且变量的对数形式也是线性的。因此,我们将以上模型称为双对数(double-log)模型或称为对数一线性(log-liner)模型。 令:x x y y ln ,ln **==代入模型将其转化为线性回归模型: u x b b y ++=*10* (3.4.3) 变换后的模型不仅参数是线性的,而且通过变换后的变量间也是线性的。 模型特点:斜率1b 度量了y 关于x 的弹性:

非线性回归分析(教案)

1.3非线性回归问题, 知识目标:通过典型案例的探究,进一步学习非线性回归模型的回归分析。 能力目标:会将非线性回归模型通过降次和换元的方法转化成线性化回归模型。 情感目标:体会数学知识变化无穷的魅力。 教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的 过程中寻找更好的模型的方法. 教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较. 教学方式:合作探究 教学过程: 一、复习准备: 对于非线性回归问题,并且没有给出经验公式,这时我们可以画出已知数据的散点图,把它与必修模块《数学1》中学过的各种函数(幂函数、指数函数、对数函数等)的图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量代换,把问题转化为线性回归问题,使其得到解决. 二、讲授新课: 1. 探究非线性回归方程的确定: 1. 给出例1:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的/y 个 2. 讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系. ① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模. ② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y =2C 1e x C 的周围(其中12,c c 是待定的参数),故可用指数函数模型来拟合这两个变量. ③ 在上式两边取对数,得21ln ln y c x c =+,再令ln z y =,则21ln z c x c =+,可以用线性回归方程来拟合. ④ 利用计算器算得 3.843,0.272a b =-=,z 与x 间的线性回归方程为 0.272 3.843z x =-,因此红铃虫的产卵数对温度的非线性回归方程为0.272 3.843x y e -=. ⑤ 利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题. 三、合作探究 例 2.:炼钢厂出钢时所用的盛钢水的钢包,在使用过程中,由于钢液及炉渣对包衬耐火材料的侵蚀,使其容积不断增大,请根据表格中的数据找出使用次数 x 与增大的容积y 之间的关系.

第三章1.3可线性化的回归分析

1.3 可线性化的回归分析 [学习目标] 1.进一步体会回归分析的基本思想. 2.通过非线性回归分析,判断几种不同模型的拟合程度. [知识链接] 1.有些变量间的关系并不是线性相关,怎样确定回归模型? 答首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用线性回归方程来建立两个变量之间的关系,这时可以根据已有函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型. 2.如果两个变量呈现非线性相关关系,怎样求出回归方程? 答可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程. [预习导引] 1.非线性回归分析 对不具有线性相关关系的两个变量做统计分析,通过变量代换,转化为线性回归模型. 2.非线性回归方程 曲线方程曲线图形公式变换变换后的线性函数

y=ax b c=ln a v=ln x u=ln y u=c+bv y=a e bx c=ln a u=ln y u=c+bx y=a e b x c=ln a v= 1 x u=ln y u=c+bv y=a+b ln x v=ln x u=y u=a+bv 要点一线性回归分析 例1 某产品的广告费用x与销售额y的统计数据如下表: 广告费用x(万元)423 5 销售额y(万元)49263954 (1)由数据易知y与x具有线性相关关系,若b=9.4,求线性回归方程y=a+bx; (2)据此模型预报广告费用为4万元时的销售额. 解(1)x-= 4+2+3+5 4 =3.5,y-= 49+26+39+54 4 =42, ∴a=y--b x-=42-9.4×3.5=9.1

非线性回归分析

非线性回归问题, 知识目标:通过典型案例的探究,进一步学习非线性回归模型的回归分析。 能力目标:会将非线性回归模型通过降次和换元的方法转化成线性化回归模型。 情感目标:体会数学知识变化无穷的魅力。 教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的 过程中寻找更好的模型的方法. 教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较. 教学方式:合作探究 教学过程: 一、复习准备: 对于非线性回归问题,并且没有给出经验公式,这时我们可以画出已知数据的散点图,把它与必修模块《数学1》中学过的各种函数(幂函数、指数函数、对数函数等)的图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量代换,把问题转化为线性回归问题,使其得到解决. 二、讲授新课: 1. 探究非线性回归方程的确定: 1. 给出例1:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间 2. 讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系. ① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模. ② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y =2C 1e x C 的周围(其中12,c c 是待定的参数),故可用指数函数模型来拟合这两个变量. ③ 在上式两边取对数,得21ln ln y c x c =+ ,再令ln z y =,则21ln z c x c =+, 可以用线性回归方程来拟合. ④ 利用计算器算得 3.843,0.272a b =-=,z 与x 间的线性回归方程为0.272 3.843z x =-$,因此红铃虫的产卵数对温度的非线性回归方程为$0.272 3.843x y e -=. ⑤ 利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题. 三、合作探究 例 2.:炼钢厂出钢时所用的盛钢水的钢包,在使用过程中,由于钢液及炉渣对包衬耐火材料的侵蚀,使其容积不断增大,请根据表格中的数据找出使用次数x 与增大的容积y 之间的关系.

非线性回归分析

非线性回归分析(转载) (2009-10-23 08:40:20) 转载 分类:Web分析 标签: 杂谈 在回归分析中,当自变量和因变量间的关系不能简单地表示为线性方程,或者不能表示为可化为线性方程的时侯,可采用非线性估计来建立回归模型。 SPSS提供了非线性回归“Nonlinear”过程,下面就以实例来介绍非线性拟合“Nonlinear”过程的基本步骤和使用方法。 应用实例 研究了南美斑潜蝇幼虫在不同温度条件下的发育速率,得到试验数据如下: 表5-1 南美斑潜蝇幼虫在不同温度条件下的发育速率 温度℃17.5 20 22.5 25 27.5 30 35 发育速率0.0638 0.0826 0.1100 0.1327 0.1667 0.1859 0.1572 根据以上数据拟合逻辑斯蒂模型: 本例子数据保存在DATA6-4.SAV。 1)准备分析数据 在SPSS数据编辑窗口建立变量“t”和“v”两个变量,把表6-14中的数据分别输入“温度”和“发育速率”对应的变量中。 或者打开已经存在的数据文件(DATA6-4.SAV)。 2)启动线性回归过程 单击SPSS主菜单的“Analyze”下的“Regression”中“Nonlinear”项,将打开如图5-1

所示的线回归对话窗口。 图5-1 Nonlinear非线性回归对话窗口 3) 设置分析变量 设置因变量:从左侧的变量列表框中选择一个因变量进入“Dependent(s)”框。本例子选“发育速率[v]”变量为因变量。 4) 设置参数变量和初始值 单击“Parameters”按钮,将打开如图6-14所示的对话框。该对话框用于设置参数的初始值。 图5-2 设置参数初始值

实验六-用SPSS进行非线性回归分析

实验六用SPSS进行非线性回归分析 例:通过对比12个同类企业的月产量(万台)与单位成本(元)的资料(如图1),试配合适当的回归模型分析月产量与单位成本之间的关系

图1原始数据和散点图分析 一、散点图分析和初始模型选择 在SPSS数据窗口中输入数据,然后插入散点图(选择Graphs→Scatter命令),由散点图可以看出,该数据配合线性模型、指数模型、对数模型和幂函数模型都比较合适。进一步进行曲线估计:从Statistic下选Regression菜单中的Curve Estimation命令;选因变量单位成本到Dependent框中,自变量月产量到Independent框中,在Models框中选择Linear、Logarithmic、Power和Exponential四个复选框,确定后输出分析结果,见表1。 分析各模型的R平方,选择指数模型较好,其初始模型为 但考虑到在线性变换过程可能会使原模型失去残差平方和最小的意义,因此进一步对原模型进行优化。 模型汇总和参数估计值 因变量: 单位成本 方程模型汇总参数估计值 R 方 F df1 df2 Sig. 常数b1 线性.912 104.179 1 10 .000 158.497 -1.727 对数.943 166.595 1 10 .000 282.350 -54.059 幂.931 134.617 1 10 .000 619.149 -.556 指数.955 212.313 1 10 .000 176.571 -.018 自变量为月产量。 表1曲线估计输出结果

二、非线性模型的优化 SPSS提供了非线性回归分析工具,可以对非线性模型进行优化,使其残差平方和达到最小。从Statistic下选Regression菜单中的Nonlinear命令;按Paramaters按钮,输入参数A:176.57和B:-.0183;选单位成本到Dependent框中,在模型表达式框中输入“A*EXP(B*月产量)”,确定。SPSS输出结果见表2。 由输出结果可以看出,经过6次模型迭代过程,残差平方和已有了较大改善,缩小为568.97,误差率小于0.00000001, 优化后的模型为: 迭代历史记录b 迭代数a残差平方和参数 A B 1.0 104710.523 176.570 -.183 1.1 5.346E+133 -3455.813 2.243 1.2 30684076640.87 3 476.032 .087 1.3 9731 2.724 215.183 -.160 2.0 97312.724 215.183 -.160 2.1 83887.036 268.159 -.133 3.0 83887.036 268.159 -.133 3.1 59358.745 340.412 -.102 4.0 59358.745 340.412 -.102 4.1 26232.008 38 5.967 -.065 5.0 26232.008 385.967 -.065 5.1 7977.231 261.978 -.038 6.0 797 7.231 261.978 -.038 6.1 1388.850 153.617 -.015 7.0 1388.850 153.617 -.015 7.1 581.073 180.889 -.019 8.0 581.073 180.889 -.019 8.1 568.969 182.341 -.019 9.0 568.969 182.341 -.019 9.1 568.969 182.334 -.019 10.0 568.969 182.334 -.019 10.1 568.969 182.334 -.019 导数是通过数字计算的。 a. 主迭代数在小数左侧显示,次迭代数在小数右侧显示。 b. 由于连续残差平方和之间的相对减少量最多为SSCON = 1.000E-008,因此在 22 模型评估和 10 导数评估之后,系统停止运行。

Mathematica线性回归和非线性拟合

线性回归和非线性拟合 线性回归和非线性拟合都是根据随机观测的一些数据,按照最小二乘法的原理,得到要分析的量和与它相关的量之间近似的函数关系的过程。此外,还要求对结果做显著性检验、区间估计、预测、模型的优劣讨论和改进等。 Mathematica中,使用函数Regress来进行线性回归分析,其使用格式和做曲线拟合的Fit函数是一样的:(如果你只想得到拟合的函数而不需要分析结果,可以使用Fit函数) Regress[拟合数据,用于拟合的函数列表,变量] 下面是其常用的几种形式: 例:数学模型(姜启源),第294页,牙膏的销售量 1.输入数据 2.调入统计函数包,这是使用回归函数必须做的准备。 3.进行回归分析 4.根据选项RegressionReport输出参数的置信区间 关于结果分析和改进工作请参考书第297页~300页。 Mathematica中,使用函数NonlinearFit进行非线性拟合(在5.0版中,可以用内部函数FindFit代替),使用函数NonlinearRegress进行非线性回归分析,它们的使用格式是一样的,但NonlinearFit只

给出最优拟合函数,而NonlinearRegress还可以对结果进行分析,此外它还有和Regress函数一样的选项RegressionReport。下面是它们的使用格式: NonlinearFit[数据,拟合函数形式,变量表,参数表] NonlinearRegress[数据,拟合函数形式,变量表,参数表] 例:数学模型(姜启源),第312页,酶促反应,混合模型的求解和分析 上机练习: (1)数学模型(姜启源)第326页,第1题(答案:参见配套的习题解答) (2)数学模型(姜启源)第330页,第4题(答案:参见配套的习题解答) (3)2004年数学建模竞赛C题中,人一次性喝下含酒精Q 的啤酒后,假设血液中酒精的浓度与时间 的关系为: ()() () bt at aQ C t e e V a b -- =- - ,这里V0=420百毫升,a,b为待定参数,一瓶啤酒含有的酒 精量为21700毫克。试根据题目给出的数据拟合求出参数a,b,作出相应的图形比较拟合的结果,并计算血液中酒精的浓度什么时候达到最大值。 附:某人在短时间内喝下2瓶啤酒后,隔一定时间测量他的血液中酒精含量(毫克/百毫升),得到数据如下: (答案:可参考我校获奖论文)

非线性回归分析(常见曲线与方程)

非线性回归分析 回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理 两个现象变量之间的相关关系并非线性关系,而呈现某种非线性的曲线关系,如:双曲线、二次曲线、三次曲线、幂函数曲线、指数函数曲线(Gompertz)、S型曲线(Logistic)对数曲线、指数曲线等,以这些 变量之间的曲线相关关系,拟合相应的回归曲线,建立非线性回归方程,进行回归分析称为非线性回归分析 常见非线性规划曲线 1.双曲线1b a yx 2.二次曲线 3.三次曲线 4.幂函数曲线 5.指数函数曲线(Gompertz) 6.倒指数曲线y=a b/ x e 其中 a>0, 7.S型曲线(Logistic) y 1 abe x 8.对数曲线y=a+blogx,x>0 b x 9.指数曲线y=ae 其中参数a>0 1.回归: (1)确定回归系数的命令 [beta,r,J]=nlinfit(x,y,’model’,beta0) (2)非线性回归命令:nlintool(x,y,’model’,beta0,alpha) 2.预测和预测误差估计: [Y,DELTA]=nlpredci(’model’,x,beta,r,J) 求nlinfit或lintool所得的回归函数在x处的预测值Y及预测值的显著性水平为1-alpha的置信区间Y,DELTA. 例2观测物体降落的距离s与时间t的关系,得到数据如下表,求s 关于t的回归方程s?a btct2. t(s)1/302/303/304/305/306/307/30 s(cm)11.8615.6720.6026.6933.7141.9351.13 t(s)8/309/3010/3011/3012/3013/3014/30 s(cm)61.4972.9085.4499.08113.77129.54146.48 解: b/x,建立M文件volum.m如下:e 1.对将要拟合的非线性模型y=a

高考数学复习点拨-非线性回归问题

非线性回归问题 两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型。分析非线性回归问题的具体做法是: (1)若问题中已给出经验公式,这时可以将变量x 进行置换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决. (2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种已知函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量置换,将问题化为线性回归分析问题来解决. 下面举例说明非线性回归分析问题的解法. 例1 在彩色显影中,由经验可知:形成染料光学密度y 与析出银的光学密度x 由公式 e b x y A =(b <0)表示,现测得实验数据如下: 试求对的回归方程. 分析:该例是一个非线性回归分析问题,由于题目中已给定了要求的曲线为e b x y A =(b <0)类型,我们只要通过所给的11对样本数据求出A 和b ,即可确定x 与y 的相关关系的曲线方程. 解:由题意可知,对于给定的公式e b x y A =(b <0)两边取自然对数,得ln ln b y A x =+. 与线性回归方程对照可以看出,只要取1 u x = ,ln v y =,ln a A =,就有v a bu =+,这是v 对u 的线性回归直线方程,对此我们再套用相关性检验,求回归系数b 和a . 题目中所给数据由变量置换1 u = ,ln v y =变为如表所示的数据: 由于|r |=0.998>0.602,可知u 与v 具有很强的线性相关关系. 再求得0.146b =-$,$0.548a =, ∴v =$0.5480.146u -,把u 和v 置换回来可得$0.146 ln 0.548y x =-, ∴$ 0.146 0.1460.1460.5480.548 e 1.73x x x y e e e - - - ===g , ∴回归曲线方程为$ 0.146 1.73e x y - =. 点评:解决本题的思路是通过适当的变量置换把非线性回归方程转化为线性回归方程,然后再套用线性回归分析的解题步骤. 例2 为了研究某种细菌随时间x 变化的繁殖个数,收集数据如下:

多重共线性和非线性回归的问题

多重共线性和非线性回归的问题 前几天她和我说,在百度里有个人连续追着我的回答,三次说我的回答错了。当时非常惊讶,赶紧找到那个回答的问题,看看那个人是怎么说。最终发现他是说多重共线性和非线性回归的问题,他认为多个自变量进行不能直接回归,存在共线性的问题,需要进行因子分析(或主成分分析);说非线性回归不能转换成线性回归的方法,这里我详细说说这两方面的问题到底是怎么回事(根据我的理解),我发现很多人很怕这个多重共线性的问题,听到非线性回归,脑袋就更大了。。。 (1)多重共线性问题 我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看: 第一个,是最熟悉也是最方便的——逐步回归法。 逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。 第二个,通过因子分析(或主成分分析)再进行回归。 这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。 第三个,岭回归。 通过逐步回归时,我们可能得到几个自变量进入方程中,但是有时会出现自变量影响的方向出现错误,比如第一产业的产值对国民收入是正效应,而可能方程中的系数为负的,这种肯定是由于共线性导致出现了拟合失真的结果,而这样的结果我们只能通过自己的经验去判断。通常我们在做影响因素判断的时候,不仅希望得到各个因素对因变量真实的影响关系,还希望知道准确的影响大小,就是每个自变量系数的大小,这个时候,我们就可以通过岭回归的方法。

建模基本步骤与非线性回归分析

第二讲建模基本步骤和非线性回归分析 建模基本步骤 用一个例子来讲解建模的基本步骤和软件的基本操作。 例:下表是1950—1987年间美国机动车汽油消费量和影响消费量的变量数值。各变量表示:QMG—机动车汽油消费量,CAR—汽车保有量,PMG—汽油价格,POP—人口数,RGNP—按1982年美元计算的国民生产总值,PGNP—GNP 指数(1982年为100)。以汽油消费量为因变量,其他为自变量,建立回归模型。 年份汽油消费量 (QMG) 汽车保有量 (CAR) 汽油价格 (PMG) 人口数 (POP) 国民生产总值 (RGNP) GNP指数 (PGNP) 1950 40617285 49195212 0.272 152271 1090.4 26.1 1951 43896887 51948796 0.276 154878 1179.2 27.9 1952 46428148 53301329 0.287 157553 1226.1 28.3 1953 49374047 56313281 0.29 160184 1282.1 28.5 1954 51107135 58622547 0.291 163026 1252.1 29 1955 54333255 62688792 0.299 165931 1356.7 29.3 1956 56022406 65153810 0.31 168903 1383.5 30.3 1957 57415622 67124904 0.304 171984 1410.2 31.4 1958 59154330 68296594 0.305 174882 1384.7 32.1 1959 61596548 71354420 0.311 177830 1481 32.6 1960 62811854 73868682 0.308 180671 1517.2 33.2 1961 63978489 75958215 0.306 183691 1547.9 33.6 1962 62531373 79173329 0.304 186538 1647.9 34 1963 64779104 82713717 0.304 189242 1711.6 34.5 1964 67663848 86301207 0.312 191889 1806.9 35 1965 70337126 90360721 0.321 194303 1918.5 35.7 1966 73638812 93962030 0.332 196560 2048.9 36.6 1967 76139326 96930949 0.337 198712 2100.3 37.8 1968 80772657 101039113 0.348 200706 2195.4 39.4 1969 85416084 103562018 0.357 202677 2260.7 41.2 1970 88684050 106807629 0.364 205052 2250.7 43.4 1971 92194620 111297459 0.361 207661 2332 45.6 1972 95348904 117051638 0.388 209896 2465.5 47.5 1973 99804600 123811741 0.524 211909 2602.8 50.2 1974 100212210 127951254 0.572 213854 2564.2 55.1 1975 102327750 130918918 0.595 215973 2530.9 60.4 1976 106972740 136333934 0.631 218035 2680.5 63.5 1977 110023410 141523197 0.657 220239 2822.4 67.3 1978 113625960 146484336 0.678 222585 3115.2 72.2 1979 107831220 149422205 0.857 225055 3192.4 78.6 1980 100856070 153357876 1.191 227757 3187.8 85.7

应用MATLAB进行非线性回归分析资料讲解

应用M A T L A B进行非线性回归分析

应用MATLAB进行非线性回归分析 摘要 早在十九世纪,英国生物学家兼统计学家高尔顿在研究父与子身高的遗传问题时,发现子代的平均高度又向中心回归大的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其他分支中。随着计算机的发展,各种统计软件包的出现,回归分析的应用就越来越广泛。回归分析处理的是变量与变量间的关系。有时,回归函数不是自变量的线性函数,但通过变换可以将之化为线性函数,从而利用一元线性回归对其进行分析,这样的问题是非线性回归问题。下面的第一题:炼钢厂出钢水时用的钢包,在使用过程中由于钢水及炉渣对耐火材料的侵蚀,使其容积不断增大。要找出钢包的容积用盛满钢水时的质量与相应的实验次数的定量关系表达式,就要用到一元非线性回归分析方法。首先我们要对数据进行分析,描出数据的散点图,判断两个变量之间可能的函数关系,对题中的非线性函数,参数估计是最常用的“线性化方法”,即通过某种变换,将方程化为一元线性方程的形式,接着我们就要对得到的一些曲线回归方程进行选择,找出到底哪一个才是更好一点的。此时我们通常可采用两个指标进行选择,第一个是决定系数 ,第二个是剩余标准差。进而就得到了我们想要的定量关系表达式。第二题:给出了某地区1971—2000年的人口数据,对该地区的人口变化进行曲线拟合。也用到了一元非线性回归的方法。首先我们也要对数据进行分析,描出数据的散点图,然后用MATLAB编程进行回归分析拟合计算输出利用Logistic模型拟合曲线。 关键词:参数估计,Logistic模型,MATLAB 正文 一、一元非线性回归分析的求解思路:

高考全国一卷非线性回归方程题

(19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值. 6.8 表中w 1 =x 1w = 1 8 1 1x w +∑ (Ⅰ)根据散点图判断,y =a +bx 与y =c +哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程; (Ⅲ)以知这种产品的年利率z 与x 、y 的关系为z =0.2y -x .根据(Ⅱ)的结果回答下列问题: (i ) 年宣传费x =49时,年销售量及年利润的预报值是多少? (ii ) 年宣传费x 为何值时,年利率的预报值最大? 附:对于一组数据(u 1 v 1),(u 2 v 2)…….. (u n v n ),其回归线v =αβ+u 的斜率和截距 的最小二乘估计分别为:1 2 1 ()() ,() n i i i n i i u u v v v u u u βαβ==--= =--∑∑. 年宣传费(千元) 年销售量

(19)解:(I )由散点图可以判断y c =+y 关于年宣传费x 的回归方程类型。 ……2分 (II ) 令w = ,先建立y 关于w 的线性回归方程。由于 1 2 1 ()() 108.8 ?681.6 () n i i i n i i w w y y d w w ==--== =-∑∑ ??56368 6.8100.6c y dw =-=-?=。 所以y 关于w 的线性回归方程为?100.668y w =+,因此y 关于x 的回归方程为?100.6y =+ ……6分 (III )(i )由(II )知,当x=49时,年销售量y 的预报值 ?100.6576.6y =+= 年利润z 的预报值?576.60.24966.32z =?-=。 ……9分 (ii )根据(II )的结果知,年利润z 的预报值 ?0.2(100.620.12z x x =+-=-+ 13.6 6.82 ==,即x=46.24时,?z 取得最大值 故年宣传费为46.24千元时,年利润的预报值最大。 ……12分

非线性回归分析(教案)

非线性回归冋题, 知识目标:通过典型案例的探究,进一步学习非线性回归模型的回归分析。 能力目标:会将非线性回归模型通过降次和换元的方法转化成线性化回归模型。 情感目标:体会数学知识变化无穷的魅力。 教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用 教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法? 教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较?教学方式:合作探究 教学过程: 一、复习准备: 对于非线性回归问题,并且没有给出经验公式,这时我们可以画出已知数据的散点图,把它与必修模块《数学1》中学过的各种函数(幕函数、指数函数、对数函数等)的图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量代换,把问题转化为线性回归问题,使其得到解决? 二、讲授新课: 1. 探究非线性回归方程的确定: 1. 给出例1 :一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y与x之间的回归方程? 温度x/°C21232527293235 产卵数y/个7 112124 66 115325 2. 讨论:观 察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两 个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的 关系? ①如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模 温度

②根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=Ge C2X的周围(其中G,C2是待定的参数),故可用指数函数模型来拟合这两个变量?

相关主题
文本预览
相关文档 最新文档