SAS系统和数据分析非线性回归分析
- 格式:doc
- 大小:905.00 KB
- 文档页数:39
第四十二课 非平稳序列的随机分析20世纪70年代,G. P. Box 和G. M. Jenkins 发表了专著《时间序列分析:预测和控制》,对平稳时间序列数据,提出了自回归滑动平均模型ARIMA ,以及一整套的建模、估计、检验和控制方法。
使时间序列分析广泛地运用成为可能。
为了纪念Box 和Jenkins 对时间序列发展的特殊贡献,现在人们也常把ARIMA 模型称为Box-Jenkins 模型。
当我们拟合一个时间序列时,先通过差分法或适当的变换使非平稳序列化成为平稳序列,我们再要考虑的是参数化和记忆特征的有效性,用这种参数方法拟合序列为某种特定的结构,只用很少量的参数,使参数的有效估计成为可能。
相对于一个序列的过去值,可用传统的Box 和Jenkins 方法建模。
实际上,Box-Jenkins 模型主要是运用于单变量、同方差场合的线性模型。
随着对时间序列应用的深入研究,发现还存在着许多局限性。
所以近20年来,统计学家纷纷转向多变量、异方差和非线性场合的时间序列分析方法的研究,并取得突破性的进展,其中Engle 和Granger 一起获得2003年诺贝尔经济学奖。
在异方差场合,Robert F.Engle 在1982年提出了自回归条件异方差ARCH 模型,以及在ARCH 模型上衍生出的一系列拓展模型。
在多变量场合,70年代末,G. E. P. Box 教授和刁锦寰教授在处理洛山矶的环境数据时,提出了干预分析和异常值检验方法。
1987年,C.Granger 提出了协整(co-integration )理论,在多变量时间序列建模过程中“变量是平稳的”不再是必须条件了,而只要求它们的某种组合是平稳的。
非线性时间序列分析也有重大发展,汤家豪教授等在1980年左右提出了利用分段线性化构造门限自回归模型。
一、 ARIMA 模型随着对时间序列分析方法的深入研究,人们发现非平稳序列的确定性因素分解方法(如季节模型、趋势模型、移动平均、指数平滑等)存在一些问题,它只能提取显著的确定性信息,对随机性信息浪费严重,同时也无法对确定性因素之间的关系进行分析。
第三十四课 非线性回归分析现实世界中严格的线性模型并不多见,它们或多或少都带有某种程度的近似;在不少情况下,非线性模型可能更加符合实际。
由于人们在传统上常把“非线性”视为畏途,非线性回归的应用在国内还不够普及。
事实上,在计算机与统计软件十分发达的令天,非线性回归的基本统计分析已经与线性回归一样切实可行。
在常见的软件包中(诸如SAS 、SPSS 等等),人们已经可以像线性回归一样,方便的对非线性回归进行统计分析。
因此,在国内回归分析方法的应用中,已经到了“更上一层楼”,线性回归与非线性回归同时并重的时候。
对变量间非线性相关问题的曲线拟合,处理的方法主要有:● 首先决定非线性模型的函数类型,对于其中可线性化问题则通过变量变换将其线性化,从而归结为前面的多元线性回归问题来解决。
● 若实际问题的曲线类型不易确定时,由于任意曲线皆可由多项式来逼近,故常可用多项式回归来拟合曲线。
● 若变量间非线性关系式已知(多数未知),且难以用变量变换法将其线性化,则进行数值迭代的非线性回归分析。
一、 可变换成线性的非线性回归在实际问题中一些非线性回归模型可通过变量变换的方法化为线性回归问题。
例如,对非线性回归模型()t i t i t i t ix b ix a y εα+++=∑=210sin cos(34.1)即可作变换:t t t t t t t t x x x x x x x x 2sin ,2cos ,sin ,cos 4321====将其化为多元线性回归模型。
一般地,若非线性模型的表达式为:()()()t m m t t t x g b x g b x g b b y ++++= 22110(34.2) 则可作变量变换:()()()t m m t t t t t x g x x g x x g x ===*2*21*1,,, (34.3)将其化为线性回归模型的表达式,从而用前面线性模型的方法来解决,其中式(34.3)中的x t 也可为自变量构成的向量。
非条件 Logistic 回归模型的分析方法与 SAS 应用赤峰市疾病预防控制中心 韩忠义一、 概述:Logistic 回归分析在流行病学的病因研究中,是分析疾病与危险因素间联系的一种统计方法。
在这类研究中,所观察的项目的值,常以二项反应变量取值,即生存与死亡,是否发病,是否接触危险因素等的反应变量y 的取值是0或1。
因此,这类资料既不是计量资料,也不属于计数资料,如果用这样的资料建立描述协变量 x 1,x 2,…,x m 与所研究的疾病发生概率P (y=1)的关系的回归方程,则有:1βα+=P 1x +…+m βm x这样的方程显然是不合适的,因为方程左边的概率P,其取值在0,1范围内,而方程右边的取值可以是0,1范围之外。
如果对P 作logit 变换,则logit(P)与x 1,x 2,…,x m 间呈线性关系,即:1)(log βα+=P it 1x +…+m βm x这是数学上的logistic 曲线,因此,将此式描述的P 与协变量间的回归关系称为线性Logistic 回归。
Logistic 回归模型有条件与非条件之分,前者适用于配对资料的分析,后者适用于队列研究或病例-对照研究的成组资料的分析。
二、 非条件Logistic 模型的定义:根据Logistic 函数的定义:)]exp(1/[)exp(x x P βαβα+++= (1) )]exp(1/[11x P βα++=- (2)式中以P 表示疾病发生的概率,以1-P 表示疾病不发生的概率,α,β1,…,βm 是回归模型中的参数。
在实际工作中往往是研究与疾病有关的多个因素,因此式(1)可以扩展为:∑=+=m i i P 1exp(βαi x ∑=++mi i 1exp(1/[)βαi x )] i=1,2,3,…,m (3)∑=++=-mi i P 1exp(1/[11βαi x )] i=1,2,3,…,m (4)三、 应用:在使用分析流行病学的方法研究疾病病因时,非条件Logistic 模型是用于分析队列或病例-对照研究成组资料的统计方法,既可以进行因素筛选,也可以用于混杂因素的控制。
SAS进行多元非线性回归多元非线性回归方程重要方法是转化为线性回归方程.转化时应首先选择适合的非线性回归形式,并将其线性化。
对于实际问题,首先应对原始数据进行作图或通过观察,选择适当函数进行拟合。
已知1978~2006年全国GDP(y),第一产业x1、第二产业x2、工业生产总值x3、第三产业生产总值x4,请建立y对x1~x4的回归模型。
[plain]viewplaincopyprint?1. dataex;2. inputyx1-x4@@;3. y1=log(y);z1=log(x1);z2=log(x2);z3=log(x3);z4=log(x4);/*对数据做变化,取对数后再做回归分析*/4. cards;5. 16.84535.60927.44366.37353.79256. 21.3836.632910.05858.75844.69167. 23.17166.581911.14249.66235.44738. 25.72897.097412.318110.66416.31349. 28.62477.797313.510111.2887.317310. 32.31039.195214.634312.08648.480811. 36.403710.068816.166412.982210.168512. 45.077412.084419.730115.583813.262913. 51.474913.139522.25217.452816.083414. 63.413517.454327.536321.419321.122915. 82.348419.430435.629428.867827.288616. 92.714321.203139.383233.019432.12817. 101.463324.377240.579634.337836.506518. 117.417824.194148.475941.011444.747819. 147.521326.615162.683452.289358.221920. 188.895830.161382.385367.892176.349221. 253.057735.8777111.32491.4335105.85622. 320.407245.578137.4362102.6372137.39323. 397.570158.3757167.9238130.2389171.270624. 475.869168.732197.5005157.0486209.636625. 534.596970.7519222.8439174.1697241.001126. 580.03671.3285238.4684187.0766270.239127. 656.409874.1104268.3988206.0297313.900628. 728.077478.3636297.0933217.9077352.620529. 812.846979.1826328.0378229.521405.626530. 929.485883.2886393.6734268.2806452.523831. 1133.8828103.3327504.571341.5303525.979132. 1519.90112.59655.27469.28752.0433. 1790.66123.25774.66584.41892.7534. ;35. p rocreg;/*reg调用回归模块*/36. m odely1=z1z2z3z4/cli;/*表示以z1z2z3z4为自变量,y1为应变量建立回归模型,/cli表示要求预测区间。
用SAS 作回归分析前面我们介绍了相关分析,并且知道变量之间线性相关的程度可以通过相关系数来衡量。
但在实际工作中,仅仅知道变量之间存在相关关系往往是不够的,还需要进一步明确它们之间有怎样的关系。
换句话说,实际工作者常常想知道某些变量发生变化后,另一个相关变量的变化程度。
例如,第六章中已经证明消费和收入之间有很强的相关关系,而且也知道,消费随着收入的变化而变化,问题是当收入变化某一幅度后,消费会有多大的变化?再比如,在股票市场上,股票收益会随着股票风险的变化而变化。
一般来说,收益和风险是正相关的,也就是说,风险越大收益就越高,风险越小收益也越小,著名的资本资产定价模型(CAPM )正说明了这种关系。
现在的问题是当某个投资者知道了某只股票的风险后,他能够预测出这只股票的平均收益吗?类似这类通过某些变量的已知值来预测另一个变量的平均值的问题正是回归分析所要解决的。
第一节 线性回归分析方法简介一、回归分析的含义及其所要解决的问题“回归”(Regression)这一名词最初是由19世纪英国生物学家兼统计学家F.Galton(F.高尔顿)在一篇著名的遗传学论文中引入的。
高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高的趋势。
这一回归定律后来被统计学家K.Pearson 通过上千个家庭成员身高的实际调查数据进一步得到证实,从而产生了“回归”这一名称。
当然,现代意义上的“回归”比其原始含义要广得多。
一般来说,现代意义上的回归分析是研究一个变量(也称为因变量Dependent Variable 或被解释变量Explained Variable )对另一个或多个变量(也称为自变量Independent Variable 或Explanatory Variable )的依赖关系,其目的在于通过自变量的给定值来预测因变量的平均值或某个特定值。
非线性回归NLIN过程NLIN过程是SAS系统中专门用于实现非线性回归的过程。
由于非线性模型要比线性模型更难作出估计,因此对于某些模型,NLIN过程并不能保证进行成功的拟合。
NLIN 过程的语句格式为:PROC NLIN DATA=数据集名<选项>;MODEL因变量名=表达式;PARAMETERS参数名=值;BOUNDS表达式;DER.参数名=表达式;DER.参数名.参数名=表达式RUN;其中PROC语句、MODEL语句和PARAMERERS语句是必须的,其他语句可根据永辉以及模型的需要而进行选用。
语句说明(1)PROC语句用于规定运行NLIN过程,并制定要分析的数据集名。
选项有:METHOD=选项---规定NLIN过程使用的迭代方法。
AMERHOD=选项---规定迭代过程中所使用(2)MODEL语句用于规定因变量和要拟合的模型表达式。
(3)PARAMERERS语句用于规定模型中的参数名,以及它们的初始值。
(4)BOUNDS语句用于限定参数估计的范围。
(5)DER语句用来规定对参数的一阶或二阶导数的表达式。
对变量间非线性相关问题的曲线拟合,先决定非线性模型的函数类型,处理的方法主要有:当实际问题的曲线类型不易确定时,由于任意曲线都可由多项式来逼近,因此经常用多项式回归来近似拟合曲线对于可线性化的问题则通过变量代换将其线性化,从而归结为前面的多元线性回归问题来解决。
若变量间的非线性关系式已知,且难以用变量代换法将其线性化,则进行数值迭代的非线性回归分析。
1、非线性回归proc nlin过程对于不能线性化的非线性模型,在SAS系统中可通过proc nlin 过程来实现相应的计算。
Proc nlin 过程采用最小二乘法及迭代估计法来建立一个非线性模型。
用户一般须自定参数的名字、参数的启动值、非线性的模型与迭代估计所用的方法;若用户不指明,则默认为高斯-牛顿迭代法。
Proc nlin 过程的主要控制语句:PROC NLIN <options>;MODEL dependent=expression;PARAMETERS parameter=values<parameter=values,……>;BOUNDS inequality<,……, inequality>;ID variables;OUTPUT OUT=SAS-data-set keyword=names<,……, keyword=names>;BY variables;RUN;Proc nlin 语句选项列表中的主要选项outset=数据集名-----指定存放参数估计的每步迭代结果的数据集名。
回归分析与REG 过程前面我们介绍了相关分析,并且知道变量之间线性相关的程度可以通过相关系数来衡量。
但在实际工作中,仅仅知道变量之间存在相关关系往往是不够的,还需要进一步明确它们之间有怎样的关系。
换句话说,实际工作者常常想知道某些变量发生变化后,另一个相关变量的变化程度。
例如,第六章中已经证明消费和收入之间有很强的相关关系,而且也知道,消费随着收入的变化而变化,问题是当收入变化某一幅度后,消费会有多大的变化?再比如,在股票市场上,股票收益会随着股票风险的变化而变化。
一般来说,收益和风险是正相关的,也就是说,风险越大收益就越高,风险越小收益也越小,著名的资本资产定价模型(CAPM )正说明了这种关系。
现在的问题是当某个投资者知道了某只股票的风险后,他能够预测出这只股票的平均收益吗?类似这类通过某些变量的已知值来预测另一个变量的平均值的问题正是回归分析所要解决的。
第一节 线性回归分析方法简介一、回归分析的含义及其所要解决的问题“回归”(Regression)这一名词最初是由19世纪英国生物学家兼统计学家F.Galton(F.高尔顿)在一篇著名的遗传学论文中引入的。
高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高的趋势。
这一回归定律后来被统计学家K.Pearson 通过上千个家庭成员身高的实际调查数据进一步得到证实,从而产生了“回归”这一名称。
当然,现代意义上的“回归”比其原始含义要广得多。
一般来说,现代意义上的回归分析是研究一个变量(也称为因变量Dependent Variable 或被解释变量Explained Variable )对另一个或多个变量(也称为自变量Independent Variable 或Explanatory Variable )的依赖关系,其目的在于通过自变量的给定值来预测因变量的平均值或某个特定值。
几类常用非线性回归分析中最优模型的构建与SAS智能化实现一、本文概述本文旨在探讨几类常用非线性回归分析中最优模型的构建方法,以及如何利用SAS软件实现这些模型的智能化分析和处理。
非线性回归分析在诸多领域,如社会科学、生物医学、工程技术和经济管理等,具有广泛的应用价值。
通过构建最优的非线性回归模型,我们可以更准确地揭示变量之间的复杂关系,提高预测和决策的精确度。
文章首先将对非线性回归分析的基本概念和原理进行简要介绍,为后续研究奠定基础。
接着,将重点讨论几类常用的非线性回归模型,包括多项式回归模型、指数回归模型、对数回归模型等,并分析它们的适用场景和优缺点。
在此基础上,本文将详细介绍如何利用SAS软件构建和优化这些非线性回归模型。
SAS作为一款强大的统计分析软件,提供了丰富的非线性回归分析工具,包括模型选择、参数估计、模型验证和预测等功能。
通过SAS的智能化实现,我们可以更高效地处理大量数据,提高模型的拟合度和预测精度。
本文将通过实际案例演示如何应用SAS软件进行非线性回归分析,展示其在实践中的应用价值和效果。
还将对非线性回归分析中可能遇到的问题和挑战进行讨论,并提出相应的解决策略和建议。
通过本文的研究,我们期望能为非线性回归分析领域的理论研究和实际应用提供有益的参考和借鉴,推动该领域的发展和进步。
二、非线性回归分析基础在统计学中,回归分析是一种预测性的建模技术,它研究的是因变量(响应变量)和自变量(预测变量)之间的关系。
当这种关系不能用简单的直线或平面来描述时,我们通常称之为非线性关系,此时就需要使用非线性回归分析。
非线性回归分析旨在找到一种最能描述数据之间复杂关系的数学模型。
其中,(y) 是因变量,(x) 是自变量(可能是一个或多个),(\beta) 是一组待估计的参数,而 (f) 是一个非线性函数。
非线性回归分析的目标是找到最佳的参数估计值 (\beta),使得模型预测值与实际观测值之间的偏差最小。
第三十三课 逐步回归分析一、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。
这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。
在可能自变量的整个集合有40到60个,甚至更多的自变量的情况下,使用“最优”子集算法可能并不行得通。
那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。
逐步回归方法可能是应用最广泛的自动搜索方法。
这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。
从本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。
增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。
无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。
通常在多元线性模型中,我们首先从专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。
本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。
这样经若干步以后便得“最优”变量子集。
逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。
Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验βi =0的F 比MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121--- 是小于或等于F out 。
SAS系统和数据分析非线性回归分析电子商务系列第三十四课非线性回归分析现实世界中严格的线性模型并不多见,它们或多或少都带有某种程度的近似;在不少情况下,非线性模型可能更加符合实际。
由于人们在传统上常把“非线性”视为畏途,非线性回归的应用在国内还不够普及。
事实上,在计算机与统计软件十分发达的令天,非线性回归的基本统计分析已经与线性回归一样切实可行。
在常见的软件包中(诸如SAS、SPSS等等),人们已经可以像线性回归一样,方便的对非线性回归进行统计分析。
因此,在国内回归分析方法的应用中,已经到了“更上一层楼”,线性回归与非线性回归同时并重的时候。
对变量间非线性相关问题的曲线拟合,处理的方法主要有:首先决定非线性模型的函数类型,对于其中可线性化问题则通过变量变换将其线性化,从而归结为前面的多元线性回归问题来解决。
电子商务系列● 若实际问题的曲线类型不易确定时,由于任意曲线皆可由多项式来逼近,故常可用多项式回归来拟合曲线。
● 若变量间非线性关系式已知(多数未知),且难以用变量变换法将其线性化,则进行数值迭代的非线性回归分析。
一、 可变换成线性的非线性回归在实际问题中一些非线性回归模型可通过变量变换的方法化为线性回归问题。
例如,对非线性回归模型()ti t i t i t ix b ix a y εα+++=∑=210sin cos (34.1)即可作变换: tt t t t t t t x x x x x x x x 2sin ,2cos ,sin ,cos 4321==== 将其化为多元线性回归模型。
一般地,若非线性模型的表达式为:()()()t m m t t t x g b x g b x g b b y ++++= 22110 (34.2)则可作变量变换: ()()()t m mt t t t t x g x x g x x g x ===*2*21*1,,,(34.3) 将其化为线性回归模型的表达式,从而用前面线性模型的方法来解决,其中式(34.3)中的电子商务系列 x t 也可为自变量构成的向量。
这种变量变换法也适用于因变量和待定参数 b i 。
如:()[]1ex p 2132211-++=t t t t t x x b x b x b a y(34.4) 时上式两边取对数得: ()1ln ln 2132211-+++=t t t t t x x b x b x b a y (34.5)现作变换: 1,ln ,ln 2130*-===t t t t t x x x a b y y (34.6)则可得线性表达式: t t t t x b x b x b b y 3322110*+++= (34.7)利用前面方法确定了3,2,1,0,ˆ=i bi ,并由)ˆexp(ˆ0b a =得到aˆ 的值。
变量变换的线性化方法可推广到下列形式的非线性模型:()()t m m m t t x g b c x g b c b c y h )()()()(11100+++= (34.8)其中x =(x 1,x 2,…,x p ),而h (y t )、c i (b i )、g i (x t )则分别化为新的因变量、线性回归参数和自变量,即可归结为线性回归模型来解。
表34.1给出了一些常见的可线性化的非线性模型。
表34.1 典型的函数及线性化方法当曲线的函数类型未确定时,我们常采用上述非线性模型作为其拟合曲线,即将自变量的各种初等函数的组合作为新自变量,用逐步回归法(或正交筛选法等)对新变量进行筛选,以确定一个项数不多的线性函数表达式。
该方法对表达式形式没限制且精度要求不高的问题颇为有效。
二、 多项式回归分析在式(34.2)中,若取()iix x g =,则为多项式回归模型。
由数学分析知识可知,一般函数都可用多项式来逼近,故多项式回归分析可用来处理相当广泛的非线性问题。
电子商务系列对观测数据(x t ,y t )(t = 1,…,N ),多项式回归模型为:t m t m t t t x b x b x b b y ε+++++= 2210,t =1,2, ,N 令⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=N y y y Y 21,⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=m N N N m m x x x x x x x x x X 222221211111,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=m b b b B 10,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=N εεεε 21则模型可表示为:ε+=XB Y当X 列满秩时,由前面的讨论知,其最小二乘估计为:()Y X X X B ''=-1ˆ由此即可求得其多项式回归方程。
但由于()1-'X X 的计算既复杂又不稳定,故我们一般采用正交多项式法来进行多项式回归。
三、 不可变换成线性的非线性回归分析假设因变量y 与自变量(x 1,x 2,…,x p )之间满足非线性模型:()εβ+=;,,,21p x x x F y (34.9)其中,()'=m ββββ,,,21 为未知参数,F 为已知表达式,ε 为误差项。
电子商务系列现将观察数据:()pt t t t x x x y ,,,,21 , t =1,2, ,N代人式(34.9)得非线性回归模型:()t pt t t t x x x F y εβ+=;,,,21 , t =1,2, ,N 常记为:E F Y +=)(β其中,()'=N y y y Y ,,,21 为y 的观察向量,()'=m βββ,,1 为非线性回归系数,E =()'N εεε,,,21 为观察误差向量,F 为未知参数β的函数向量。
非线性回归分析就是利用最小二乘准则来估计回归系数β,即求βˆ 使得残差平方和:()()()()()βββF Y F Y E E Q -'-='=2121 在 ββˆ= 处达到最小。
非线性回归分析一般用数值迭代法来进行,其共同特点是:由选定β的初值0β出发,通过逐步迭代:∆⋅+=t 0ββ (34.10)即选择适当的步长t ( >0 ) 及确定搜索方向向量∆=(∆1,∆2,…,∆m ),使得:()()0ββQ Q < (34.11)电子商务系列 再由β取代0β,重复上述迭代过程,直至 Q (β)可认为达到最小值为止,即可将所得的β作为其最小二乘估计βˆ,从而得到非线性回归方程()βˆ;,,,ˆ21px x x F y = 1. 下降方向和步长的选择首先考察()()()()()βββF Y F Y E E Q -'-='=2121的梯度向量(即导数):()()()()ββββF Y G F Y F Q -'-=-'⎪⎪⎭⎫ ⎝⎛∂∂-=∂∂ 其中,'⎪⎪⎭⎫ ⎝⎛∂∂∂∂=∂∂=m F F F G βββ,,1 为F 的梯度矩阵。
为使0β迭代收敛到βˆ,其迭代公式应满足下降性质(34.11)。
现考虑一元函数()()∆⋅+=t Q t 0βϕ,它从0β出发以 ∆为方向的射线上取值。
由复合求导公式得:()()()∆⋅'--=∆⋅'⎪⎪⎭⎫ ⎝⎛∂∂='==G F Y Q t d t ββϕ0可以证明,当 d <0 时,在以 ∆为方向向量的射线上可以找到∆⋅+=t 0ββ,使得()()0ββQ Q <。
我们将满足 d <0 的∆称为下降方向,Bard 于1974年给出了∆为下降方向的充要条件为:()()βF Y G P -'=∆电子商务系列其中,P 为对称正定阵,由此我们可得下降算法的迭代公式为:()()βββF Y G tP -'+=0 (34.12)其中,P 为任意正定阵,G 为F 的梯度,t 为满足()()0ββQ Q <的正实数,即步长。
如何计算∆以便修改参数向量β有五种常用的非线性回归迭代方法:高斯-牛顿法(Gauss-Newton )、最速下降法(梯度法,Gradient )、牛顿法(Newton )、麦夸特法(Marquardt )、正割法(DUD )。
以下我们介绍高斯-牛顿法。
2. 高斯-牛顿法首先选取β的一切初始近似值0β,令0ββ-=∆,则只要确定∆的值即可确定β。
为此,考虑)(βF 在0β处的Taylor 展开式,并略去二次以上的项得: ()()()()∆⋅'+=∆⋅'⎪⎪⎭⎫ ⎝⎛∂∂+=∆+==G F F F F F 0000βββββββ 其中,0βββ=∂∂=F G 为F 的梯度。
此时其残差平方和: ()()()()∆'--'∆'--=G F Y G F Y Q 0021ββ电子商务系列由0=∆∂∂Q ,得其∆的正则方程为: ()()()0βF Y G G G -'=∆' (34.13)故 ()()()01βF Y G G G -''=∆-(34.14) 由此即可用前面线性回归法求∆,只需将G 、)(0βF Y -视为前面(34.1)式中的X 、Y 即可。
此时,对给定精度1ε、2ε ,当{}1max ε<∆i i 或()2εβ<∆+Q 时,即得β最小二乘法估计∆+=0ˆββ;否则用所得的βˆ代替0β,重复上述步骤,直至i ∆或Q (β)满足精度要求为止。
该法称为高斯-牛顿法,其一般迭代公式为:∆+=+i i i t ββ1 (34.15) 其中,∆为()()()()()i i i i F Y G G G ββββ-'=∆'的解,t i 为()()∆⋅+=t Q t i βϕ的最小值点。
高斯-牛顿法在初值0β选取适当,且G G '可逆时非常有效,但在其他情形,其求解较为困难,对此,Marguardt 对(34.14)中∆的正则系数阵作适当修正,得到了改进算法。
四、 nlin 非线性回归过程在很多场合,可以对非线性模型进行线性化电子商务系列处理,尤其是关于变量非线性的模型,以运用OLS 进行推断。
对线性化后的线性模型,可以应用SAS 的reg过程进行计算。
多项式模型可以直接应用glm(广义线性模型)求解。
对于不能线性化的非线性模型。
其估计不能直接运用经典的最小二乘法,而需要运用其他估计方法,如直接搜索法、直接最优法与Taylor级数展开法进行线性逼近。
此时,可以利用SAS/STAT的nlin过程实现相应的计算。
1. proc nlin过程proc nlin采用最小误差平方法(Least Squares Method)及循环推测法(Iterative Estimation Method)来建立一个非线性模型。