投影寻踪回归
- 格式:doc
- 大小:286.50 KB
- 文档页数:9
第一节 投影寻踪回归我们先介绍一下Peter Hall 提出的投影寻踪回归(Projection Pursuit Regression)的思想,它一点也不神秘。
我们手中的资料是k nk k k x Y x ,},{1=是p 元,Y k 是一元。
非参数回归模型是n k x G Y k k k ≤≤+=1 ,)(ε(10.1.0)我们的任务是估计p 元函数G ,当然}|{)(x x Y E x G k k ==。
G 是将p 元变量映像成一元变量,那么何不先将p 元变量投影成一元变量,即取k x u θ'=,再将这个一元实数u 送进一元函数G 作映像呢?由于要选择投影方向),,(1p θθθ =,使估计误差平方和最小,就是要寻踪了。
所以取名为投影寻踪回归。
具体操作如何选方向θ,如何定函数G ,如何证明收敛性,下面将逐步讲述。
需要指出的是,投影寻踪回归与单指针半参数回归模型的思想基本上一样,基本算法也差不多,差别大的方面是收敛结果及证明。
若论出现时间,投影寻踪回归较早,在1989年,单指针模型较晚,在1993年。
一、投影寻踪回归算法假设解释变量集合}1,{n k x k ≤≤是来自密度函数为f 的p 元随机样本,对每一个p 元样本x k ,有一元观察Y k 与之对应,并且)()|(x G x x Y E k k ==(10.1.1)这里G 是回归函数,也是目标函数。
令Ω为所有p 维单位向量的集合,θ,θ1,θ2,…是Ω中的元素。
如果H 是一个p 元函数,比如f 或G ,则H 沿方向θ的方向导数记作u x H u x H x H n /)}()({lim )(0)(-+=→θθ(10.1.2)假如这个极限存在的话。
高阶导数则记作)()()(2121)(θθθθH H =⋅,等等。
x ∈R p 的第i 个分量记作x (i ),点积)()(i i y xy x ∑=⋅,模长21)(x x x ⋅=。
符号A 表示R p 的子集,通常是指凸集。
投影寻踪方法及应用内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。
最后结合上市公司的股价进行实证分析,并给出结论和建议。
关键词:投影寻踪投影寻踪聚类模型遗传算法一、简介(一)产生背景随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。
多元分析方法是解决高维数据这类问题的有力工具。
但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。
不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。
但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。
第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。
对于核估计,近邻估计之类的非参数法很难使用。
第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。
另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。
这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。
其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。
它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。
针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。
因此,高维数据尤其是非正态高维数据分析的需要,加上80年代计算机技术的高度发展是PP产生的主要背景。
(二)发展简史PP最早由Kruskal于70年初建议和试验。
他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。
文章编号:1007-2284(2010)02-0008-05基于人工鱼群算法的南宁市内河水质综合评价的投影寻踪回归分析方 崇,张春乐,陆克芬(广西水利电力职业技术学院,南宁530023)摘 要:针对目前我国城市内河普遍遭到污染的问题,在分析影响内河水质因素的基础上,选取BO D 5(5日生化需氧量)、CO D cr (化学需氧量)、石油类、挥发酚、NH 3O N (氨氮)、总磷等6个主要因素作为评价因子,建立了城市内河水质评价的投影寻踪分析模型,采用人工鱼群算法对评价模型进行优化,并将该模型应用于南宁市10条内河水质的评价与排序。
研究表明,用投影寻踪回归分析法进行水质评价,避免了传统评价方法由于主观原因造成的误差,评价结果合理可信、方法简单,为我国城市内河水质的评价提供了新途径。
关键词:投影寻踪;人工鱼群算法;南宁市;内河;水质评价 中图分类号:T U 992.3 文献标识码:AAn Evaluation of Water Quality Projection Pursuit Based on Artificial Fish O swarm Algorithm in Inland River in NanningFANG Chong,ZHANG C hun O le,LU Ke O fen(G uang xi Hy dr aulic and Electr ic Po ly technic,Nanning 530023,China)Abstract:Po llut ion is g etting w or se in China's ur ban rivers at pr esent.In this paper,by analy zing facto rs affect ing inland r iver water qualit y,choo sing BO D 5,CO D cr ,petro leum,v olatile pheno l,N H 3O N and tot al phospho rus for evaluation factor s,a w ater qualit y e -v aluatio n method is established,and the model is applied to inland r iver s in N anning.T he evaluation results a re accur ate and so me erro rs ar e eliminated because o f the subjective facto rs of tr aditional methods.P roject ion pur suit is a new evaluation metho d of urban inland r iver wat er quality,it w ill be widely used in the fut ur e.Key words:pr ojection pursuit;artificial fish O sw arm algo rithm;N anning ;inland river;water quality assessment 收稿日期:2009-05-13基金项目:广西壮族自治区水利厅科技专项基金(No.200806)。
第一节 投影寻踪回归我们先介绍一下Peter Hall 提出的投影寻踪回归(Projection Pursuit Regression)的思想,它一点也不神秘。
我们手中的资料是k nk k k x Y x ,},{1=是p 元,Y k 是一元。
非参数回归模型是n k x G Y k k k ≤≤+=1 ,)(ε()我们的任务是估计p 元函数G ,当然}|{)(x x Y E x G k k ==。
G 是将p 元变量映像成一元变量,那么何不先将p 元变量投影成一元变量,即取k x u θ'=,再将这个一元实数u 送进一元函数G 作映像呢由于要选择投影方向),,(1p θθθ =,使估计误差平方和最小,就是要寻踪了。
所以取名为投影寻踪回归。
具体操作如何选方向θ,如何定函数G ,如何证明收敛性,下面将逐步讲述。
需要指出的是,投影寻踪回归与单指针半参数回归模型的思想基本上一样,基本算法也差不多,差别大的方面是收敛结果及证明。
若论出现时间,投影寻踪回归较早,在1989年,单指针模型较晚,在1993年。
一、投影寻踪回归算法假设解释变量集合}1,{n k x k ≤≤是来自密度函数为f 的p 元随机样本,对每一个p 元样本x k ,有一元观察Y k 与之对应,并且<)()|(x G x x Y E k k ==()这里G 是回归函数,也是目标函数。
令Ω为所有p 维单位向量的集合,θ,θ1,θ2,…是Ω中的元素。
如果H 是一个p 元函数,比如f 或G ,则H 沿方向θ的方向导数记作u x H u x H x H n /)}()({lim )(0)(-+=→θθ()假如这个极限存在的话。
高阶导数则记作)()()(2121)(θθθθH H =⋅,等等。
x ∈R p的第i 个分量记作x (i ),点积)()(i i y x y x ∑=⋅,模长21)(x x x ⋅=。
符号A 表示R p 的子集,通常是指凸集。
I (·∈A)表示A 的示性函数,I (x ∈A )=1,0)(=∈A x I 。
u 一般代表实数。
我们的任务是从观察1},{1==nk k k y x 作出p 元函数G (x )的估计,遇到的问题是p 太大,维数太高,解决的办法是作投影寻踪回归。
作沿着θ方向的一元函数Ω∈=⋅=θθθ },|)({)(u X x G E u g()在区域p R A ⊂内对G 的第一次投影逼近是函数)()(111x g x G ⋅=θθ()这里θ1是极小化下式)}()]()({[)(2A X I X g x G E S ∈⋅-=θθθ()、的结果。
当然这里G 是未知的,所以我们要作出S (θ)与g θ(u )的估计,才能得到G 1(x )的估计。
下面构造它们的估计。
设θ·x 的密度为f θ,称作沿方向θ的X 的边沿密度,利用样本x j 但不包括x k 构造f θ的核估计为⎪⎪⎭⎫⎝⎛⋅-∑-=≠h x u K h n u f j k j k θθ)1(1)(ˆ)( ()这里K 是核函数,h 是窗宽。
排除x k 在外的g θ的估计为)(ˆ/)1(1)(ˆ)()(u f h x u K Y h n u g k jj k j k θθθ⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛⋅-∑-=≠ ()借助于交叉核实的思想,作下式)()](ˆ[1)(ˆ2)(1A x I x gY n S k k k k nk ∈⋅-∑==θθθ()的极小化,其解1ˆθ就作为θ的估计。
于是)ˆ(ˆ)(ˆ1)(ˆ)(11x g x G k k ⋅=θθ ()就可以作为回归函数G 在区域A 的第一次投影逼近。
将估计限制在区域A 的理由在于,用来估计G 1的统计量在分母中有密度的核估计。
这个核估计在f 的边界取值接近于0,再作分母就有问题了。
所以我们要对分母接近于0的区域加以限制。
@刚才构造统计量时将x k 排除在外的目的是为了使交叉核实统计量获得的参数估计1ˆθ不致有额外偏差。
一旦1ˆθ确定下来,就可以在统计量中将x k 放回去,不再排除在外:)(1)(ˆ1hx u K nh u f j nj ⋅-∑==θθ())(ˆ/1)(ˆ1u f h x u K Y nh u g jj n j θθθ⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛⋅-∑== ())(ˆ/ˆ1)(ˆ1ˆ111u f h x u KY nh u G j j n j θθ⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛⋅-∑== ()我们称)(ˆ1u G 才真正是在区域A 内与f 有关的G 的第一次投影逼近。
要证明11ˆ,ˆG θ分别是θ1与G 的一致估计还是比较容易的。
我们还可以证明它们一致收敛的收敛速度。
下面我们给出核函数K 与窗宽h 的构造选择细节。
我们使用的核函数是一元的,满足f 与G 的一维投影的平滑条件。
假定f (x )与G (x )沿一切方向的前r 阶方向导数存在,定义},:{εε≤-∈∈=y x A y R x A p 对于()为了j gˆ不为0,进一步假定 f (x )在一个闭集外为0,而在A ε上不为0()为了保证集合}:{A x x ∈⋅θ是合适的区间,对于每一θ∈Ω,我们假定A 非空,是一p 维开凸集。
《对于固定的θ,估计量如θθθf g f k k ˆ,ˆ,ˆ)()(和θg ˆ是经典的一元核估计,使用的是一元样本{θ·x k ,1≤k ≤n },为了得到较高的收敛速度,可以使用r 阶正交核函数K ,它满足⎩⎨⎧-≤≤==⎰∞+∞-1100 1)(r j j du u K u j()并且K 是lder o H 连续的。
所谓lder oH 连续,即存在ε>0,c >0,对一切实数u ,ν,有 ε|||)()(|v u c v K u K -≤-()现在我们确定窗宽。
考虑模型n k x G Y k k k ≤≤+=1 ,)(ε()这里n k k ,,1, =ε是独立同分布的,其均值为0,方差为σ2,与n k x k ,,1, =相互独立。
假定h =h (n )→0,且nh →∞。
对于固定的θ∈Ω,假定f θ(u )>0,且2122]}|))()({([1)()(ˆσθθθθ+=⋅-+=u X u g X G E nhu g u g)(0),()()()}({21221r r h u c h u Z dx K u f +⋅+⋅⎰-θθ() 这里Z (u )是渐近服从正态N (0,1),当取121~+-r nh 收敛于)(ˆu gθ的收敛速度是)()12/(+-r r p n O 。
c (u ,θ)表示一个常数,它依赖于u ,θ取值,但不随n , r 改变。
?二、投影寻踪回归收敛性质设θ1,θ0∈Ω,θ0固定而θ收敛于θ0。
为了引进S (θ)的Taylor 展开,令θ00是与θ、θ0在同一平面上两个单位向量之一,且与θ0垂直。
假定θ与θ0、θ00的关系如下000212)1(ηθθηθ+-=()这里-1≤η≤1。
这个式子对于变换:(η,θ00)(-η,-θ00)是相等的,并且当θ→θ0时η=θ·θ00→0。
在合适的规则条件下,S (θ)有合适的Taylor 展式,当θ→θ0时:)(0),(21),()()(20002200010ηθθηθθηθθ+++=S S S S()下面的定理表述得更清楚一些:定理 假定f 与G 在各个方向上的一阶方向导数都存在且在R p上一致连续,A 是一非空p 维开凸集,其边界有两个方向,函数f 在一个闭集外为0,而在A ε上不为0。
令θ0与00θ为两个平行单位向量,定义000212000)1(),(ηθθηθθθθ+-==。
在上述条件下,则存在θ0与θ00的与η无关的一致连续函数S 1与S 2,当η→0时,一致成立。
这个定理的结果可从如下Radon 变换的随机展开获得。
令T 为中心在原点半径为t 的p 维球,选择t 充分大使T 包含f 的支撑。
给定θ∈Ω,u ∈R ,定义Γθ=Γθ(u ),它是点集{x ∈T :θ·x =u }所形成的(p -1)维表面。
令)(x d θγ是位于x ∈Γθ的(p -1)维的微元,其法线平行于θ。
定义Radon 变换为)()(),(x d x u A θγαθθΓ⎰=():则对此随机变换有如下定理:定理 假定在x ∈T 上沿各个方向都存在一致连续的两个一阶方向导数,令θ0,00θ是两个平行单位向量,按定义θ=θ(θ0,θ00),则存在一致有界的连续函数A 1,A 2,使当η→0时,)(0|)},,(21),,(),({),(|sup 20002200010ηθθηθθηθθ=++-u A u A u A u A ()这里上界对u ≥0所取,θ0,θ00∈Ω,并且θo ⊥θ00。
我们看到这个定理是上一定理的具体化。
这里的A (u,θ),A 1(u ,θ0,θ00),A 2 (u ,θ0,θ00)对应于上一定理的S (θ),S 1(θ0,θ00),S 2(θ0,θ00)。
我们再进一步把A 、A 1、A 2的表达式写具体。
在Radon 变换中,取α(x )=fG ,结果记为A ;取α(x )=f ,结果记为B ,再记A 1、B 1为)()}())(()())({(),,(0)(00)(000010000x d x fG x x fG x u A γθθθθθθθθ⋅-⋅⎰=Γ ())()}()()(){(),,(00000)(00)(00001x d x f x x f x u B θθθγθθθθθ⋅-⋅⎰=Γ()令)/()/()()(),,(21100000010B AB B A x g x x g -+⋅'⋅=θθθθθ()(这里A 1表示A 1(u ,θ0,θ00)在u =θ0·x 处取值,B 1亦然。
注意g θ(u )=A (u ,θ)/B (u ,θ),以及关于S (θ)的定义,我们可以推出中S 1(θ0,θ00)的表达式dx x f x g x G x g S A )(),,()}()({2),(0001000010θθθθθθ-⋅⎰=()类似还可推出S 2(θ0,θ00)的表达式,不过太复杂。
现在我们转到估计投影逼近。
对应于现在可以写为dx x f x g x G S A )()}()({)(2⋅-⎰=θθθ()它的估计是)(ˆθS,如所示。
对于g θ的估计是函数)(ˆk g θ,如所示。
)(ˆk g θ是两式之比,g θ(u |h )也是两式之比:)|,(/)|,()|(h u B h u A h u g θθθ=()这里dx x G x f h x u K h h u A p R )()()|,(1⎪⎭⎫⎝⎛⋅-⎰=-θθ()dx x f h x u K h h u B p R )()|,(1⎪⎭⎫⎝⎛⋅-⎰=-θθ()而)(ˆθS可以由下式准确给出一阶二阶导数: (dx x f h x g x G h S A )()}|()({)|(2⋅-⎰=θθθ()下面我们叙述投影寻踪回归的收敛性质。