6.4 半参数模型解析
- 格式:ppt
- 大小:102.50 KB
- 文档页数:14
半参数预测模型在定量的分子结构与其活性之间关系中的应用殷弘(香港浸会大学数学系摘要我们将要介绍的这个半参数预测模型(也叫 kriging 模型是由一个参数模型和一个非参数随机过程联合构成的。
它比单个的参数化模型更具有灵活性,同时又克服了非参数化模型处理高维数据存在的局限性。
通过对一组实际数据的应用,我们发现它比单个的参数化模型具有更强的预测能力,值得在定量的分子结构与其活性之间的关系的研究中加以推广。
关键字半参数, 回归,预测1:引言我们研究定量的分子结构与其活性之间的关系(QSAR ,其目的是想在分子的活性与分子结构之间建立一个比较理想的统计回归模型:((ff ==(1.1这样我们就可以通过此模型来预测未知某类化合物的物理化学的,生物学的以及毒物学的某种属性,模型中称为回归变量。
而分子描述值是对分子结构的一种定量的描述,我们可以将其看成模型中的自变量。
自从提出第一个分子描述值以来,现在有成千上百个分子描述值,这给模型建立带来了很多困难。
比如说,如何选择变量?选好变量后建立什幺样的模型等等? QSAR 研究中经常用到的参数化模型有普通的线性回归,主成份回归,偏最小二乘回归和邻回归。
这些方法只是充分挖掘了自变量与回归变量之间的线性关系,对剩下的信息没有能力给出解释了。
而本文将要介绍的半参数模型是由一个参数化模型和一个非参数化的随机过程组成的。
其中非参数化的随机过程提高了整个模型的质量,现在我们将此方法介绍给大家。
2: Kriging 模型Kriging 一词的意思是最优的空间预测,它是根据一个南非采矿工程师Krige 的名字命名的,是他将随机过程模型首次运用在空间预测上的。
详细内容读者可以参阅 Cressie (1993, Journel 和 Huijbregts (1978, Rivoirard (1994。
假设我们采集到个训练样本和 , 。
Kriging 方法用如下的模型来建立自变量与回归变量之间的关系 (不含误差,含有误差的模型在后面介绍:m ]', , , [21m s s s S L =]', , [21m y y y Y L =ℜ∈ℜ∈i n i y s ,( ( (s z s u s y += (2.1其中一个参数模型,它表现了回归变量的大部分信息,被称作平均结构。
非参数回归模型及半参数回归模型非参数回归模型是一种可以适应任意数据分布的回归方法。
在非参数回归中,不对模型的具体形式进行假设,而是利用样本数据去估计未知的函数形式。
这个函数形式可以用其中一种核函数进行近似,通过核函数的变换,使得样本点在空间中有一定的波动,从而将研究对象与有关因素的关系表达出来。
常见的非参数回归模型有局部加权回归(LOESS)和核回归模型。
局部加权回归是一种常见的非参数回归方法。
它通过给样本中的每个点分配不同的权重来拟合回归曲线。
每个点的权重根据其距离目标点的远近来确定,越近的点权重越大,越远的点权重越小。
这种方法在回归分析中可以较好地处理非线性关系和异方差性问题。
核回归模型是另一种常见的非参数回归方法。
它基于核函数的变换,通过将样本点的权重表示为核函数在目标点的取值,来拟合回归曲线。
核函数通常具有对称性和非负性的特点,常用的核函数有高斯核、Epanechikov核和三角核等。
核回归模型在处理非线性关系和异方差性问题时也具有较好的性能。
相比之下,半参数回归模型是在非参数回归的基础上引入一些参数的回归模型。
它假设一些参数具有一定的形式,并利用样本数据进行估计。
半参数模型可以更好地描述数据之间的关系,同时也可以提供关于参数的统计推断。
半参数回归模型有很多不同的形式,其中一个常见的半参数回归模型是广义加性模型(GAM)。
广义加性模型是通过将各个变量的函数关系进行加总,构建整体的回归模型。
这些函数关系可以是线性的也可以是非线性的,可以是参数化的也可以是非参数化的。
广义加性模型在回归分析中可以同时考虑到线性和非线性关系,广泛应用于各个领域。
在实际应用中,选择使用非参数回归模型还是半参数回归模型需要根据具体情况来决定。
非参数回归模型适用于对数据分布没有先验假设,并且希望对数据进行较为灵活的建模的情况。
半参数回归模型适用于对一些参数有一定假设的情况,可以更好地描述数据之间的关系,并提供统计推断的信息。
半参数模型估计方法概述半参数模型估计的一个重要应用是生存分析,即对个体从其中一起始点到达其中一事件发生点所经历的时间进行建模和估计。
在生存分析中,通常关注其中一事件的发生率,如死亡率、失业率等。
半参数模型估计的目标是估计这些事件的发生率,并且不对事件发生率所在的整个分布进行参数化。
1. 首先,确定不完全参数化模型的形式,如生存函数。
生存函数是指在给定时间点t,个体在此时间点之前未发生事件的概率。
常用的生存函数包括Kaplan-Meier estimator和Nelson-Aalen estimator。
2.接下来,通过最大似然估计或其他适当的方法估计模型中的参数。
这些参数可能是已知的常数,也可能是需要估计的未知数。
3. 然后,根据已知参数和已估计的参数,将非参数部分转化为参数化形式。
这可以通过使用半参数估计方法,如Cox比例风险模型来实现。
Cox比例风险模型是生存分析中最常用的半参数模型之一4.最后,使用估计的模型对新数据进行预测,并根据预测结果进行决策或推断。
然而,半参数模型估计也存在一些限制。
首先,由于半参数模型的非参数部分无法精确估计,因此估计结果可能不如完全参数化模型中的估计结果准确。
其次,半参数模型估计通常需要较大的样本量,以获得可靠的估计结果。
最后,半参数模型估计在解释变量和响应变量之间的因果关系上存在一定的局限性。
总结来说,半参数模型估计是一种用于估计不完全参数化概率分布的方法,常用于生存分析和其他有界面数据或缺失数据的分析。
它的基本思想是将参数问题转化为非参数问题,并使用经验似然方法进行估计。
半参数模型估计优点是能够处理复杂的数据,并且不需要对整个分布进行参数化;但也存在一些限制,如估计结果可能不如完全参数化模型准确,需要较大的样本量等。
半参数最近几十年大量的学者对半参数模型的参数估计和非参数估计做了大量的工作,现在我们其中主要方法进行一个概括介绍,并对其中的补偿最小二乘法和二步估计最小二乘核估计做主要详细的介绍。
第一种参数估计法,就是将非参数分量参数化的估计方法。
关于半参数模型的早期工作是这样的思路:对函数空间附施加一定的限制(主要指光滑性),由于W 常是无穷维的,通常由光滑性可使用合理的逼近形式,使得W 中的元素参数化。
例如:在函数空间中选定一组基{}i e ,于是1()ni ii s t eλ==∑。
若W 中的元有某种光滑性,使此级数一致收敛,则可用有限和1()ni i i s t e λ==∑逼近。
于是()s t 估计的问题转化为估计有限维参数12(,,,)n λλλλ= ,从而可使用线性模型的方法(如最小二乘法,)同时估计β及λ。
由于这种估计是以非参数分量()s t 的参数化为特征,故大多以使用的参数化的方法命名(如偏光滑样条估计、偏分块多项式估计、分段多项式估计等)。
第二种是两步估计。
两步估计的思路是:先假设x 已知,我们可以做出S 的非参数估计(,)(,)()S t W t Y X βλβ=-,其中的λ为任意的参数,根据(,)W t λ采用的方法的不同,将两步估计分为不同的估计方法(如近邻估计、权估计、核估计、小波估计等).然后定义X 的估计为下述极小问题的解 :min,(,)T V PV V Y X S t ββ==--求出β的解为β,从而就可以求出(,)S S t β=。
第三种估计方法是两阶段估计.其思路是:(())i E s t α=<∞,2(())i E s t <∞,()i i i e s t α=-+∆,则{}i e 是相互独立的同分布。
且0i Ee =,2i Ee <∞。
那么模型就化为:,(1,2,,)i i i y X e i n αβ=++=对于模型上面的模型使用最小二乘法得到β的估计β(称为β的一次估计):然后基于残差{}i i y X β-,在模型中使用某种方法(如核光滑、概率权、多项式、小波等)估计()s t ,记为()s t 。
摘要早在上世纪六十年代,Mundlak (1961)以及Balestra and Nerlove (1966)就已将面板数据引入到经济计量中,此后面板数据的理论分析方法和应用实证研究在经济、管理等众多学科领域中得到迅速发展。
在现有的面板数据分析中,不论是对固定效应模型还是随机效应模型,通常首先假设模型为线性。
然而,由于经济或社会系统的复杂性,对模型进行严格的线性假设往往是不合理或不成立的。
在本文中,我将赋予面板数据模型更大的自由度,放松参数线性假设,使用更加具有适应性的非线性模型。
由于传统的非线性参数模型是根据经济理论和样本数据来设定模型的函数关系,在实证应用中当模型及参数的假定与实际背离时就容易造成模型设定误差问题。
因此,传统的非线性参数模型并不能很好地描述数据的非线性特征。
参数模型是估计设定的回归模型参数,非参数模型则是对整个回归函数进行估计,而半参数模型中既含有参数部分也含有非参数部分。
因此,半非参数模型有较大的适应性、更适用于解决经济金融中的诸多问题。
半参数回归模型是由Stone (1977)结合参数模型和非参数模型而提出得一种既含参数分量,又含非参数分量的模型。
当参数分量的系数全部为零时,半参数模型简化为非参数模型;当非参数分量的系数全部为零时,半参数模型变为参数模型。
半参数模型可以概括和描述众多实际问题,因而引起广泛的重视。
基于半参数回归模型的诸多优点,较之经典假设模型有它更好的拟合效果,并且能更精确地推断以往的经济现象。
因此,本文的所有章节都是以半参数模型为主体,将其分别应用于分析不同的具体问题。
面板数据相关效应模型。
自从Koenker and Bassett (1978)最早提出线性分位数回归的理论和方法以后,分位数回归理论研究一直在不断的完善中,分位数回归方法也被广泛应用于生物学、药学、金融学和经济学等领域的理论研究和实证应用中。
尤其是当数据分布具有厚尾和不对称特征且存在较多异常值时,使用分位数回归方法进行分析比使用均值回归方法更为合适。
半参数模型估计方法概述半参数回归模型,是由Engle etal(1986)在研究天气变化与供电需求之间的关系时引入的,是20世纪80年代以来发展起来的一种重要的统计模型。
主要介绍了两类半参数回归模型:线性半参数回归模型和非线性半参数回归模型。
概述了目前两类半参数回归模型常见的估计方法,这其中主要包括补偿最小二乘估计、核光滑估计,虚拟观测法等。
标签:线性半参数回归模型;非线性半参数回归模型;补偿最小二乘估计;正则核估计;虚拟观测法1 线性半参数模型的估计方法概述线性半参数模型的一般向量形式为:Y=Xβ+S+ε(1)其中Y表示为n维观测向量,Y=(Y1,Y2,…,Y n)T;X为n×p维列满秩设计矩阵,X=(X1,X2,…,X n)T,rank(X)=p;β为p维参数向量,β=(β1,β2,…,βp)T;ε为n维偶然误差向量,εN(0,∑),ε=(ε1,ε2,…,εn);S表示描述系统误差的n维非参数向量,S=(S1,S2,…,S n)T。
1.1 补偿最小二乘估计法对于线性半参数回归模型,将上式改写成观测方程:Y+V=Xβ+S(2)得出V=Xβ+S-Y,将此带入V TPV+αJ(S)=min化简整理为(Xβ+S-Y)TP(Xβ+S-Y)+αS TRS=min(3)由此可以按照求极值方法求解,即满足:(X,I)βS-Y TP(X,I)βS-Y+αβT,S T000R(β,S)=min(4)则法方程为:X TPXX TP PXP+αRβS=X TPX PY(5)从而有X TPXβ+X TPS=X TPY,PXβ+(P+αR)S=PY,由此可以得到=(X TPX)-1X TPY-(X TPX)-1X TPS(6)=(P+αR-PX(X TPX)-1X TP)-1(PY-PX(X TPX)-1X TPY)(7)补偿最小二乘法的关键是如何确定光滑因子α和正则矩阵R,对于α的选择方法可由交叉核实法CV以及L-曲线法等方法确定。
第七章 非参数回归模型与半参数回归模型第一节 非参数回归与权函数法一、非参数回归概念前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。
参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。
另一类回归,非参数回归,则与参数回归正好相反。
它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。
设Y 是一维观测随机向量,X 是m 维随机自变量。
在第四章我们曾引进过条件期望作回归函数,即称g (X ) = E (Y |X ) (7.1.1)为Y 对X 的回归函数。
我们证明了这样的回归函数可使误差平方和最小,即22)]([min )]|([X L Y E X Y E Y E L-=-(7.1.2)这里L 是关于X 的一切函数类。
当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。
细心的读者会在这里立即提出一个问题。
既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。
实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。
正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。
在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。
所以我们知道,参数回归与非参数回归的区分是相对的。
用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。
二、权函数方法非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。
这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。
也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式:∑==ni i i n Y X W X g 1)()((7.1.3)其中{W i (X )}称为权函数。