半参数回归模型虚拟1
- 格式:doc
- 大小:197.50 KB
- 文档页数:17
第七章 非参数回归模型与半参数回归模型第一节 非参数回归与权函数法一、非参数回归概念前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。
参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。
另一类回归,非参数回归,则与参数回归正好相反。
它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。
设Y 是一维观测随机向量,X 是m 维随机自变量。
在第四章我们曾引进过条件期望作回归函数,即称g (X ) = E (Y |X ) (7.1.1)为Y 对X 的回归函数。
我们证明了这样的回归函数可使误差平方和最小,即22)]([min )]|([X L Y E X Y E Y E L-=-(7.1.2)这里L 是关于X 的一切函数类。
当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。
细心的读者会在这里立即提出一个问题。
既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。
实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。
正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。
在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。
所以我们知道,参数回归与非参数回归的区分是相对的。
用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。
二、权函数方法非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。
这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。
也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式:∑==ni i i n Y X W X g 1)()((7.1.3)其中{W i (X )}称为权函数。
半参数回归模型的渐进性质及其应用的开题报告一、研究背景及意义半参数回归模型是一种在不确定因素较多的情况下进行预测的统计工具,可以在不知道全部自变量的情况下,通过对已知自变量与因变量的数据进行拟合,预测出因变量的值。
由于现实生活中不同变量之间存在着复杂的关联关系,因此常常难以建立完整的回归模型。
而半参数回归模型的特点在于,能够解决变量之间相关性较强,但有一些变量无法被准确预测的问题,具有重要的理论与应用价值。
二、研究目的本文旨在研究半参数回归模型的渐进性质,分析其在理论和应用方面的优势,并探究半参数回归模型在实际社会生活中的应用情况。
希望通过本文的研究,可以为半参数回归模型的理论研究和实际应用提供有益的参考和帮助。
三、研究方法本文将采用文献资料法、案例分析法和实证分析法,并结合具体实例对半参数回归模型的渐进性质以及其应用进行深入研究。
通过理论分析和案例实证,探讨半参数回归模型的优势与不足,以及其在实际应用中的局限性和改进途径。
同时,我们还将使用统计软件进行实证分析,以得到更具说服力的结论。
四、预期结果通过本文的开题研究,我们预计得到以下几个方面的结果:1.探讨半参数回归模型的理论基础和渐进性质,发现半参数回归模型在某些假设条件下具有较好的渐进性质,这对于模型优化和改进具有很大的意义。
2.分析半参数回归模型在实际应用中的优势与不足,探讨其局限性,并提出改进的途径和方法。
3.以实例为基础,使用实证分析法对半参数回归模型进行应用研究,验证其预测能力和拟合效果。
4.通过本文的研究,能够为半参数回归模型的理论研究和实际应用提供有益的参考和帮助,提高其在实际社会应用中的效果和价值,为社会经济的发展做出贡献。
半参数截尾回归模型一个回归模型是截尾的,当在一定范围内的多次观察位于该范围的端点以外,切断对因变量所记录的数据。
当数据是截尾的时候,所观测的因变量的变化将低估“真实”因变量的回归元的效应。
因此,标准最小二乘法回归使用截尾数据产生的最典型地系数估计结果就是有偏与零。
传统的统计方法使用极大似然或相关程序去处理截尾数据的问题。
然而,这种方法的有效性需要正确的设定误差的分布,实践中这是有问题的。
在过去的二十年,提出了解决截尾问题的许多半参数方法。
在一个半参数方法中,通常是回归函数部分地设定为函数形式,通过研究者基于貌似可性的假定参数化的设定,模型剩余的部分是非参数化的。
理论文献已经提出了若干半参数的估计量对于截尾数据模型,发表的这些估计量应用于经济学的实证问题已经远远地滞后。
本文回顾了一小部分关于截尾回归模型建议的半参数估计量的计算,各种估计量被用来检验十九世纪60年代黑人与白人收入不等的变化,围绕1964年民权法的颁布,基于纵向的社会保障总署的收入记录。
这些收入记录在最高应纳税额处截尾,也就是说,任何人收入超过最大纳税值在社会保障规定下是要纳税的。
因此,上述的最大值,收入的数据不能精确的反映真实的收入。
普通最小二乘法分析这些数据意味着在十九世纪六十年代期间黑人和白人工作者的收入出现了小的收敛。
另一方面,半参数模型的估计量解释了截尾表明在1964年后黑人和白人收入显著的收敛。
比较参数和半参数的结果有助于准确描述参数方法在误设的情形。
截尾回归模型和估计量社会保障总署数据集我们分析时受困于数据截尾的简单形式,区间截尾,“真实”因变量*y 是可观测的,只要他们落在已知的单边的区间[a,b]。
否则,观测的区间的闭断点就会代替*y 。
Tobin (1958)应用这个模型去分析消费者汽车支出,端点0a =和b =∞,经济学家一般提到的回归模型有非负约束作为Tobit 模型。
其他的典型的这些截尾回归模型的应用就是右截尾数据,这里0a =和b =∞表示因变量的一个最大记录值。
第七章 非参数回归模型与半参数回归模型第一节 非参数回归与权函数法一、非参数回归概念前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。
参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。
另一类回归,非参数回归,则与参数回归正好相反。
它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。
设Y 是一维观测随机向量,X 是m 维随机自变量。
在第四章我们曾引进过条件期望作回归函数,即称g (X ) = E (Y |X ) (7.1.1)为Y 对X 的回归函数。
我们证明了这样的回归函数可使误差平方和最小,即22)]([min )]|([X L Y E X Y E Y E L-=-(7.1.2)这里L 是关于X 的一切函数类。
当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。
细心的读者会在这里立即提出一个问题。
既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。
实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。
正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。
在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。
所以我们知道,参数回归与非参数回归的区分是相对的。
用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。
二、权函数方法非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。
这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。
也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式:∑==ni i i n Y X W X g 1)()((7.1.3)其中{W i (X )}称为权函数。
半参数模型估计方法概述半参数模型估计的一个重要应用是生存分析,即对个体从其中一起始点到达其中一事件发生点所经历的时间进行建模和估计。
在生存分析中,通常关注其中一事件的发生率,如死亡率、失业率等。
半参数模型估计的目标是估计这些事件的发生率,并且不对事件发生率所在的整个分布进行参数化。
1. 首先,确定不完全参数化模型的形式,如生存函数。
生存函数是指在给定时间点t,个体在此时间点之前未发生事件的概率。
常用的生存函数包括Kaplan-Meier estimator和Nelson-Aalen estimator。
2.接下来,通过最大似然估计或其他适当的方法估计模型中的参数。
这些参数可能是已知的常数,也可能是需要估计的未知数。
3. 然后,根据已知参数和已估计的参数,将非参数部分转化为参数化形式。
这可以通过使用半参数估计方法,如Cox比例风险模型来实现。
Cox比例风险模型是生存分析中最常用的半参数模型之一4.最后,使用估计的模型对新数据进行预测,并根据预测结果进行决策或推断。
然而,半参数模型估计也存在一些限制。
首先,由于半参数模型的非参数部分无法精确估计,因此估计结果可能不如完全参数化模型中的估计结果准确。
其次,半参数模型估计通常需要较大的样本量,以获得可靠的估计结果。
最后,半参数模型估计在解释变量和响应变量之间的因果关系上存在一定的局限性。
总结来说,半参数模型估计是一种用于估计不完全参数化概率分布的方法,常用于生存分析和其他有界面数据或缺失数据的分析。
它的基本思想是将参数问题转化为非参数问题,并使用经验似然方法进行估计。
半参数模型估计优点是能够处理复杂的数据,并且不需要对整个分布进行参数化;但也存在一些限制,如估计结果可能不如完全参数化模型准确,需要较大的样本量等。
第七章 非参数回归模型与半参数回归模型第一节 非参数回归与权函数法一、非参数回归概念前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。
参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。
另一类回归,非参数回归,则与参数回归正好相反。
它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。
设Y 是一维观测随机向量,X 是m 维随机自变量。
在第四章我们曾引进过条件期望作回归函数,即称g (X ) = E (Y |X ) (7.1.1)为Y 对X 的回归函数。
我们证明了这样的回归函数可使误差平方和最小,即22)]([min )]|([X L Y E X Y E Y E L-=-(7.1.2)这里L 是关于X 的一切函数类。
当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。
细心的读者会在这里立即提出一个问题。
既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。
实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。
正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。
在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。
所以我们知道,参数回归与非参数回归的区分是相对的。
用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。
二、权函数方法非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。
这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。
也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式:∑==ni i i n Y X W X g 1)()((7.1.3)其中{W i (X )}称为权函数。
半参数回归模型虚拟1半参数模型解算的虚拟观测法1朱建军冯光财戴吾蛟中南大学信息物理工程学院摘要半参数模型中的非参数部分可以很好地描述测量数据处理规律不是十分明确的系统误差或模型误差,因而近年得到了测绘工作者的广泛重视。
但目前半参数模型的各种解算方法主要还是沿用数学中提出的方法,例补偿最小二乘法,样条函数法,核光滑估计等,这些方法的特点是:所用的参数和语言都是纯数学的、相对抽象的,与具体应用中的实际意义关系不大,如何根据具体的问题确定方法中的有关量,没有成熟可靠的方法。
本文首先介绍半参数回归中常用的补偿最小二乘法。
然后基于先验信息,从纯测量学的观点讨论半参数模型的解算。
即将对问题的先验信息转换成对问题的虚拟观测,用虚拟观测与原观测联合按常规的最小二乘方法求解。
理论和实际1本项目由湖南省自然科学基金项目(02JJY2066)和湖南省科技计划项目联合资助(2004022200611)都证明,该方法与最小二乘补偿法完全等价。
从而在理论上得到一个重要的结论:半参数回归的补偿最小二乘法中的正则矩阵可由虚拟观测的观测方程系数确定,即,lTlA A R =,平滑因子可由观测方差与虚拟观测方差的方差比(权比)22/l L σσα=确定,而该方差比可以在计算中用方差分量估计的方法确定。
由此将半参数回归的解算与传统的测量数据处理方法有机地结合起来了。
实例的计算结果表明,本文提出的虚拟观测方法计算的结果一般要优于常规的补偿最小二乘结果,基本上可达到常规补偿最小二乘法在理论上的最优解。
关键词:半参数模型,补偿最小二乘法,先验信息 虚拟观测中国图书分类号:P207A quasi observation approach for semi-parameter regressionZhu Jianjun Feng Guangcai Dai wujaoSchool of info-physcs and Geomatics, Central South UniversityAbstractThe non-parameter in semi-parametric model can be used to describe the systemic error or model error in geodesy, so semi-parameterregression get a great attention in geodesy. However, all the methods to find solutions of the model are based on mathematics, some concepts in the methods are very abstract, especially some quantities are no relationship to practical situation. So it is very difficult to determine these quantities on practical situations. In this paper the method of penalized least squares(PLS) is introduced at first. And then, the solution of the model is studied on the view of geodesy. It is suggested that the prior information on the semi-parameters is transformed into quasi observations, and the quasi observations are adjusted then together with the real observations. The paper proves that the quasi observations method is equal to PLS. The regular matrix in PLS can be determined by coefficient matrix of the quasi observation equation, that is, l T l A AR , the smoothing parameter is equal to the ratio of the observation variance to the quasi observation variance. The example shows that the quasiobservation method usually will be better than PLS. And it can get nearly the best theoretical result of PLS1、引言半参数回归模型是20世纪80年才发展起来的一种重要的统计模型,这种模型的特点是既有参数分量又含有非参数分量,参数分量部分可以用来描述函数关系明确的那一部分,而非参数部分可以用来描述函数关系或规律不明确的那一部分[1]。
在测量数据处理中,观测值与被观测的对象的函数关系往往非常明确,但测量的系统误差或模型误差往往则很难用函数来描述,如果把它归入随机误差部分,明显会丢失信息,影响数据处理的精度,但用上述模型中的非参数则可以很好地描述这一部分的信息,即可用上述模型中的参数部分描述观测值与被观测对象的明确函数关系,用非参数部分描述并不完全确定的模型误差或系统误差部分。
因而半参数模型在近年得到了测绘工作者的广泛重视[2-10]。
目前测绘界对半参数模型的研究主要集中在以下几个方面:一是用测量平差的语言和方式介绍半参数回归的有关方法及其处理模型误差和系统误差能力[2-6],二是研究半参数回归模型与传统平差模型的关系[7-8],三是研究有关的算法改进及统计性质[9-10]。
半参数回归算法具有较好的处理系统误差和模型误差的能力这一点在多数文献中都进行了肯定,但目前的算法主要还是沿用数学中提出的算法,例补偿最小二乘法,样条函数法,核光滑估计等,这些方法的特点是:所用的参数和语言都是纯数学的、相对抽象的,与具体应用中的实际意义关系不大,例补偿最小二乘准则中的两个重要量:光滑因子和正则矩阵,偏核光滑估计中的光滑矩阵,这些量都是一些纯数学含义的量,他们在测量实际中的含义不是十分明确,因而不利于测量工作者的理解和使用,也不利于测量工作者针对测量的实际情况对半参数估计的有关理论和方法进行深入研究和扩充。
本文将基于先验信息,从纯测量的观点来讨论半参数模型的解算,并由此得出了目前半参数模型解算方法中有关参数的测量学含义。
2、半参数回归方法半参数模型可表示为[1][3]:∆++=SBXL(1) 其中L表示n维的观测向量,X为u维的参数向量,B为系数矩阵,△表示误差,S表示规律不十分明确,难以用简单的函数表示,但又不能归入误差项的非参数部分。
半参数模型有两个特点(文献[1]P5):一是S可以是任意的函数形式,可以包含任意多的参数;二是模型的目的主要在于估计参数,非参数S 的引入主要是为了得到更准确的参数估计,S本身的大小和精度并不重要。
很显然,对于测量数据处理,S可以描述模型误差或系统误差。
如果把S简单地看作为参数,则上述问题变为具有n+u个未知数,只有n个观测的不定问题,如果不增加其它信息则不可能求解。
目前半参数模型的解法主要是按两种思路进行设计的,一是对非参数S的函数空间施加一定的限制,一般是进行光滑性限制,由于S的函数形式可以任意,使用光滑性后则可以使用合理的参数逼近,将非参数部分参数化。
这种类型的估计是以非参数分量参数化为特征,例,偏光滑样条估计,偏分块多项式估计等。
另一种思路是分别对参数部分和非参数部分进行估计的两阶段估计方法。
例可先假定参数已知,使用标准非参数方法估计非参数部分,然后去掉非参数部分,再使用标准的参数估计方法估计参数部分。
由于篇幅所限,这里我们只简单介绍目前半参数模型求解中广泛应用的补偿最小二乘方法。
将模型(1)改写成观测方程,有:SBXVL+=+(2)为了求得上述问题的解,可以增加对非参数S函数光滑性的限制,即要求:m in)(=+SJPVV Tα(3)其中:⎰=dttSSJ2))("()(是刻划非参数函数光滑性的一个定量指标。
α称为平滑因子,它起到在拟合度(V T PV)和光滑程度之间的平衡作用。
在自然样条的概念下,上述准则等价于:min=+RSSPVV TTα(4)其中R称为正则矩阵,可由所采用的自然样条或其它方法事前确定。
在准则(4)下可求得(2)式的补偿最小二乘解:))(()()(1111PL A PA A PA PL M S PS A PA A PL A PA A X TTT T T T -----=-=(5)PA PA A PA R P M T T 1)(--+=α (6)补偿最小二乘法的关键是如何确定光滑因子α和正则矩阵R 。
由于这两个量的测量学含义并不十分明确,针对各种实际测量工作应该如何确定这两个量目前还没有统一的解释。
当L 是一个观测序列时,如果认为相邻时刻的模型误差或系统误差相差不大,即Si 与Si+1差别不大,文献[2]建议取:GG R T =(7) 其中⎪⎪⎪⎪⎪⎭⎫⎝⎛---=1100110011ΛG (8)而α可以根据交叉核实法在计算中确定(文献[1]P47)。
3.半参数模型的虚拟观测法对于先验信息“认为相邻时刻的模型误差或系统误差相差不大,即Si 与Si+1差别不大”可以用虚拟观测:1=-=+i i i S S l(9)表示。
全体虚拟观测用误差方程形式可表示为:⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫⎝⎛---=+n S S S v l M Λ211100110011(10) 即SA v l l =+(11)其中l 为虚拟观测向量,并且有l =0,v 为虚拟观测残差向量,对比(10)(11)和(8)式可知,A l 与式(8)中的G 完全相同。
对于上述先验信息下的虚拟观测,我们可以认为观测等权,但观测方差的大小未知,因而其虚拟观测权可表示为: I P lα=(12) 其中22/l Lσσα=为观测方差与虚拟观测方差的方差比(权比),虚拟观测与实际观测联合后的观测方程为:SA v l S AX V L l =++=+(13) 在最小二乘准则:min =+v P v PV V lTT(14)下,可求得法方程为:lP A PL S A P A P PAX PLA PS A PAX A l T l l l T l l T T T +=++=+)((15) 最后可求得:))(()()(1111PL A PA A PA l P A PL M S PS A PA A PL A PA A X T T l T l T T T T -----+=-= (16) 这里PA PA A PA A P A P M T T l l T l 1)(--+=(17)式(16)就是半参数模型的虚拟观测法的解。