当前位置:文档之家› 投影寻踪模型

投影寻踪模型

投影寻踪模型
投影寻踪模型

投影寻踪方法及应用

内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。最后结合上市公司的股价进行实证分析,并给出结论和建议。

关键词:投影寻踪投影寻踪聚类模型遗传算法

一、简介

(一)产生背景

随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。多元分析方法是解决高维数据这类问题的有力工具。但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。对于核估计,近邻估计之类的非参数法很难使用。第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。

另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。

(二)发展简史

PP最早由Kruskal于70年初建议和试验。他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。1979年后,Friedman 等人相继提出了PP回归、PP分类和PP密度估计。在这以后Huber等人积极探索了PP的理论。1981年Donoho提出了用Shannan嫡作投影指标比wiggins用标准化峰度更好的方法,接着他又利用PP的基本思想给出了多元位置和散布的一类仿射同变估计。Diaeonis、Friedman和Jones等还讨论了与PP有关的其他理论问题。上述工作和结果在1985年Huber 的综述论文中作了概括和总结。

我国学者成平和吴健福于1985年证明了PP密度估计的一个收敛性问题,并于1987年给出PP经验分布的极限分布。陈忠琏和李国英等于1986年用PP方法给出了散布阵和主成分的一类稳健估计。成平和李国英于1986年还对多元位置和散布的PP型估计性质进行了讨论叫。陈家弊于1986年证明了密度PP估计的一个极限定理。宋立新和成平于1996年就PP回归逼近的均方收敛性,回答了Huber1985年的猜想。这些都是很好的工作。在PP的应用研究方面,从1985年起,郑祖国、杨力行等人通过几年的潜心研究和探索,成功地完成了投影寻踪回归(PPR)和投影寻踪时序(PPTS)软件包的程序设计,并对大量实例进行了验算。

二、PP及其分类

投影寻踪是用来分析和处理高维数据,尤其是来自非正态总体的高维数据的一类统计方法。其基本思想是:利用计算机技术,把高维数据通过某种组合,投影到低维(1~3维)子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。

它的一般方案是:

(l)选定一个分布模型作为标准(一般是正态分布),认为它是最不感兴趣的结构;

(2)将数据投影到低维空间上,找出数据与标准模型相差最大的投影,这表明在投影中含有标准模型没能反映出来的结构;

(3)将上述投影中包含的结构从原数据中剔除,得到改进了的新数据;

(4)对新数据重复步骤(2)(3),直到数据与标准模型在任何投影空间都没有明显差别为止。

PP方法的主要特点是:

(l)PP方法能够在很大程度上减少维数祸根的影响,这是因为它对数据的分析是在低维子空间上进行的,对1-3维的投影空间来说,高维空间中稀疏的数据点就足够密了,足以发现数据在投影空间中结构特征;

(2)PP方法可以排除与数据结构和特征无关,或关系很小的变量的干扰;

(3)PP方法为使用一维统计方法解决高维问题开辟了途径,因为PP方法可以将高维数据投影到一维子空间,再对投影后的一维数据进行分析,比较不同一维投影的分析结果,找出好的投影;

(4)与其他非参数方法一样,PP方法可以用来解决某些非线性问题。PP虽然是以数据的线性投影为基础,但它找的是线性投影中的非线性结构,因此它可以用来解决一定程度的非线性问题,如多元非线性回归;

(二)PP的分类

PP包括手工PP和机械PP两方面内容。手工PP主要是利用计算机图像显示系统在终端屏幕上显示出高维数据在二维平面上的投影,并通过调节图像输入装置连续地改变投影平面,使屏幕上的图像也相应地变化,显示出高维数据在不同平面上投影的散点图像。使用者通过观察图像来判断投影是否能反映原数据的某种结构或特征,并通过不断地调整投影平面来寻找这种有意义的投影平面。

最早的图象显示系统是斯坦福大学教授J.H.Friedman等人1974年编制的,PRIM一9。

利用这个系统可以看到不超过九维的数据在任何二维平面上的投影图象,以发现数据的聚类和超曲面结构。这个系统还可以只显示指定的区域内的高维点,把其他点移出屏幕不显示出来。因此当人们在投影平面上发现了某种聚类结构时,可以把不同类的数据分开,再分别考察每个类中的数据的结构和特征。

使用手工PP 成功的例子是美国的Reaven 和Miller 于1979年关于多尿病病理的研究。他们将145人的5项指标观察值输入PRIM 一9图像显示系统,对5项指标中的每3项指标,观察145个3维点构成的点云在任何2维平面上的投影图像,最后找到了一个在医学上有意义的图像。从这张图像上可以看到隐性和显性多尿症患者的数据是完全分开的。不经过中间正常状态,两者是不能相互转换的。

机械PP 是模仿手工PP ,用数值计算方法在计算机上自动找出高维数据的低维投影,即让计算机按数值法求极大解的最优化问题的方法,自动地找出使指标达到最大的投影。它要求对一个P 维随机向量X ,寻找一个K (K

有些传统的多元分析方法可以看成是机械投影寻踪的特例。例如主成份分析,判别分析等,但是主成分分析方法是用主成分来描述或逼近原始数据,所反映的是数据的全局特征或宏观特征,这样显然就有可能会漏掉主要的局部特征或细节特征。下面以大家熟知的主成份分析为例具体说明机械投影寻踪方法。

主成份分析的目的是要考察P 维数据n x x x ,,,21 ,是否真正散布在P 维空间上,还是主要只散布在某个维数小于P 的子空间上。好比一块铁饼,虽然是三维空间中的形体,由于相对地说厚度明显地小,所以它主要是散布在二维平面上的园形东西,在与这个园形垂直的方向上没有多少布散布。我们取描述一维数据散布程度的标准差作为投影指标。实数

n y y y ,,,21 的标准是∑--=

n

i

n n y y

y y y 1

2

21)1/()(),,,( σ,其中n y y n

i /1

=

。用投影寻踪了

解数据n x x x ,,,21 的散布情况,就是找出一个方向b ,使得数据在这个方向上的投影的散布达到最大,即),,(max ),,('1'1

'11'1n a n x a x a x b x b σσ==,1b 就是n x x x ,,,21 的样本协差阵S 的最

大特征根1λ的特征向量。把S 的特征根从大到小排列,记作p λλλ,,,21 ,这样投影寻踪就给出了n x x x ,,,21 的第一主成份n x b x b x b '12'11'1,,, ,它的标准差1'11'1),,(λσ=n x b x b 。继续作投影寻踪,在与1b 垂直的空间里求单位向量2b ,使),,(max ),,('1',1'21'21

n b a a n x a x a x b x b σσ<==。

可以证明2b 就是相应于2λ的特征根,进而得到n x x x ,,,21 的第二主成份n x b x b '21'2,, ,及其标准差2λ,如此类推,就可以求出第三、第四主成份等等,直到某个主成份的标淮差接

近零为止。

当然,主成份分析只是机械投影寻踪的一个特例。一般的并不要求后面的投影方向与前面找到的投影方向垂直。而且,对于主成分分析其样本协方差阵及特征根和特征向量对离群点是非常敏感的,正是由于样本协方差阵的不稳定,造成了传统主成分分析的不稳健。为了得到稳健性,可以采用稳健的散布度量加以改进另外,实际作主成份分析时也不用求极值的投影寻踪法,而是直接求样协差阵S 的特征根和特征向量。

三、投影指标

PP 的出发点是度量投影分布所含信息的多少,而我们知道高维数据集合的线性投影是?几乎正态的,并且正态分布通常为无信息分布的代表。从而寻求与正态分布差异最大的线性投影分布,即含信息最多的投影分布,成为PP 方法的常用方式之一。既然如此,那么它是如何实现的呢?为了避免繁杂的细节讨论,突出问题的重点,我们选取简单的度量准则,如方差、偏度、峰度,至于更加复杂的度量准则也有完全类似的描述、解释,这里从略。

(1)方差指标)()(X a Var X a Q T T =

设),,,(21n x x x 是总体X 的独立同分布的样本,方差指标的样本形式为

2

1

))

((1

)(∑=-=

n

i T

i T

T

X a E x a n

X a Q 。如果我们求)(max X a Q T

,得到的∧

a 就是样本散布最大的方

向。主成分分析就是取样本方差为投影指标的PP 方法。

(2)Friedman 指标 设有Legendre 多项式

R R Q R Q ==)(,1)(10, 3,2],)1()12[(121

=---=

--j Q j RQ

j j

Q j j j

设X 为P 维随机向量,协方差阵∑的正交分解T

UDU

=∑,U 是标准正交阵,D 是对角

阵。),,,(21n x x x 是X 的n 个样本,n P 是其经验分布。为了达到PP 的主要目的,并减少计算量,我们要求PP 指标对P 维数据的任何非奇异仿射变换保持不变。为此,对x 及它的子样进行球面化,即令)(21

EX X U D Z T -=-

,如果∑未知,则用样本的协方差阵n ∑的正交分解T

n n n n U D U =∑的n n D U ,代替D U ,。设)(x Φ为标准正态分布分布函数,则Friedman 指标为2

1

)]

1)(2([)12(2

1

),(-Φ+=

∑=Z a Q E j P a I T j P

J

i 其中P 是X 的分布函数。

样本形式为2

1

)]

1)(2([)12(2

1

)(-Φ+=

∑=Z a Q E

j a I T j P J

i n n

(3)偏度指标和峰度指标

偏度是用来衡量分布非对称性的统计指标,峰度是用来衡量分布平坦性的统计指标,它们都对离群点非常敏感。因此可以用作投影指标来寻找离群点。设原随机变量为X ,投影方向为a ,偏度指标和峰度指标分别为

2

3

11)()(k X a Q a I T

==和2422)()(k X a Q a I T ==

以及两者混合产生的指标

12

/)()(2

42

333k k X a Q a I T

+==和242344)()(k k X a Q a I T ?==

这类指标对于检测噪声背景下的比较细小的特征目标有较好的效果。 (4)信息散度指标

一般认为服从正态分布的数据含有的有用信息最少,因而我们感兴趣的是与正态分布差别大的结构。多元正态分布的任何一维线性投影仍然服从正态分布,因此如果一个数据在某个方向上的投影与正态分布差别较大,那它就一定含有非正态的结构,这是我们关心的。高维数据在不同方向上的一维投影与正态分布的差别是不一样的,它显示了在这一方向上所含有的有用信息的多少,因此可以用投影数据的分布与正态分布的差别来作为投影指标。人们已经设计出许多具有这种特点的指标,信息散度指标就是其中之一。设f 是一

维密度函数,g 是一维标准正态分布密度函数,f 对g 的相对嫡为dx x g x f x g g f d ?

+∞

-?=

)

()(log

)()(

信息散度指标定义为:)()()(f g d g f d f Q +=

当g f =时,0)(=g f d ;若f 偏离g 越远,那么)(g f d 值就越大,因此)(g f d 刻划了 f 到g 的偏离程度。由于根据样本估计f 是很麻烦的,因此更简便有效的方法是用离散化的概率分布p 和q 分别代替连续的密度函数f 和g ,这时指标变为

)()(),(p q D q p D q p Q +=,其中∑

?=

)log(

)(q

p q q p D 。如果投影指标的值越大,那么意味

着它越偏离正态分布,因而是我们感兴趣的方向

基于结构的PP 降维流程

四、投影寻踪聚类模型

(一)用PP 探索高维数据的结构或特征时,一般采用迭代模式。首先根据经验或猜想给定一个初始模型;其次把数据投影到低维空间上,找出数据与现有模型相差最大的投影。这表明在这个投影中含有现有模型中没有反映的结构,然后把上述投影中所包含的结构并在现有模型上,得到改进了的新模型。再从这个新模型出发,重复以上步骤,直到数据与模型在任何投影空间都没有明显的差别为止。由于PP 是一种数据分析的新思维方式,因此

高 维

数据集

结构

线 性 投 影

结构

度量

将这种新思想与传统的回归分析、聚类分析、判别分析、时序分析和主分量分析等相结合,会产生很多新的分析方法。例如投影寻踪聚类(Projection Pursuit Classification ,简称PPC ),它是以每一类内具有相对大的密集度,而各类之间具有相对大的散开度为目标来寻找最优一维投影方向,并根据相应的综合投影特征值对样本进行综合分析评价。

(二)投影寻踪聚类模型

设第i 个样本第j 个指标为),,2,1;,,2,1(m j n i x ij ==,n 为样本个数,m 为指标个数,用投影寻踪技术建立投影寻踪聚类模型的步骤如下:

(1)样本指标数据归一化:由于各指标的量纲不尽相同或数值范围相差较大,因此,在建模之前对数据进行归一化处理为max 'j x x

x ij

ij

=,其中max j x 表示第j 个指标的样本最大

值。

(2)线性投影:所谓投影实质上就是从不同的角度去观察数据,寻找最能充分挖掘数据特征的作为最优投影方向。可在单位超球面中随机抽取若干个初始投影方向

),,,(21m a a a a ,计算其投影指标的大小,根据指标选大的原则,最后确定最大指标对应的

解为最优投影方向。

若),,,(21m a a a 为m 维单位向量,则样本i 在一维线性空间的投影特征值i z 的表达为

∑==

m

j ij j

i x a

z 1

'

(3)寻找目标函数:综合投影指标值时,要求投影值i z 的散布特征应为:局部投影点尽可能密集,最好凝聚成若干个点团,而在整体上投影点团之间尽可能散开。故可将目标函数)(a Q 定义为类间距离)(a s 与类内密度)(a d 的乘积,即)()()(a d a s s Q ?=。

类间距离用样本序列的投影特征值方差计算,2

1

2

1

]

)

([)(n z z a s n

i a i ∑=-=。其中a z 为序列

},,2,1)({n i i z =的均值,)(a s 愈大,散布愈开。

设投影特征值间的距离),,2,1,(n k i z z r k i ij =-=,则)

()()(11

ik n

i n

k ik

r R f r

R a d --=

∑∑==,)

(t f 为一阶单位阶跃函数,0≥t 时,其值为1;0

?<≥=-ik

ik ik r R r R r R f 0

1)(,

R 为估计局部散点密度的窗宽参数,按宽度内至少包括一个散点的原则选定,其取值与样本数据结构有关,可基本确定它的合理取值范围为m R r 2max ≤<,其中,

),,2,1,)(max(max n k i r r ik ==。类内密度)(a d 愈大,分类愈显著。

(4)优化投影方向:由上述分析可知,当)(a Q 取得最大值时所对应的投影方向就是所

要寻找的最优投影方向。因此,寻找最优投影方向的问题可转化为下列优化问题:

??

???==?=∑=m

j j a a a d a s a Q 121

)()()(max ,这是以j a 为优化变量的复杂非线性优化问题,可采用遗传算法

等优化方法求解。

(5)综合评价聚类分析:根据最优投影方向,便可计算反映各评价指标综合信息的投影特征值i z 的差异水平,以i z 的差异水平对样本群进行聚类分析。

五、遗传算法

(一)定义

遗传算法(Genetic Algorithm ,简称GA )以生物进化过程为背景,模拟生物进化的步骤,将繁殖、杂交、变异、竞争和选择等概念引入到算法中,通过维持一组可行解,并通过对可行解的重新组合,改进可行解在多维空间内的移动轨迹或趋向,最终走向最优解。它克服了传统优化方法容易陷入局部极值的缺点,是一种全局优化算法。其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。

(二)运算过程 1. 遗传算法染色体编码

遗传算法不能直接处理问题空间的参数,必须把它们转换成遗传空间的由基因按一定结构组成的染色体或个体,这一转换操作就叫做编码。二进值编码是目前遗传算法中最常用的编码方法。即是由二进值字符集{0, 1}产生通常的0, 1字符串来表示问题空间的候选解。

2. 适应度函数

遗传算法的适应度函数也叫评价函数,是用来判断群体中的个体的优劣程度的指标,它是根据所求问题的目标函数来进行评估的。遗传算法在搜索进化过程中一般不需要其他外部信息,仅用评估函数来评估个体或解的优劣,并作为以后遗传操作的依据。由于遗传算法中,适应度函数要比较排序并在此基础上计算选择概率,所以适应度函数的值要取正值。由此可见,将目标函数映射成求最大值形式且函数值非负的适应度函数是必要的。

在具体应用中,适应度函数的设计要结合求解问题本身的要求而定。适应度函数设计直接影响到遗传算法的性能。

3. 遗传算子 3.1. 选择

选择算子有时又称为再生算子。选择的目的是把优化的个体(或解)直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的,目前常用的选择算子有以下几种:适应度比例方法、随机遍历抽样法、局部选择法、局部选择法。

其中轮盘赌选择法 是最简单也是最常用的选择方法。在该方法中,各个个体的选择概

率和其适应度值成比例。设群体大小为n ,其中个体i 的适应度为i f ,则i 被选择的概率i P ,

为遗传算法 ∑

==n

j i i f f

P 1

显然,概率反映了个体i 的适应度在整个群体的个体适应度总和中所占的比例。个体适应度越大,其被选择的概率就越高,反之亦然。计算出群体中各个个体的选择概率后,为了选择交配个体,需要进行多轮选择。每一轮产生一个[0,1]之间均匀随机数,将该随机数作为选择指针来确定被选个体。个体被选后,可随机地组成交配对,以供后面的交叉操作。

3.2 交叉

在自然界生物进化过程中起核心作用的是生物遗传基因的重组(加上变异)。遗传算法中起核心作用的是遗传操作的交叉算子。所谓交叉是指把两个父代个体的部分结构加以替换重组而生成新个体的操作。通过交叉,遗传算法的搜索能力得以飞跃提高。

交叉算子根据交叉率将种群中的两个个体随机地交换某些基因,能够产生新的基因组合,期望将有益基因组合在一起。根据编码表示方法的不同,可以有以下的算法:

a)实值重组

1)离散重组;2)中间重组; 3)线性重组; 4)扩展线性重组。 b )二进制交叉

1)单点交叉; 2)多点交叉; 3)均匀交叉; 4)洗牌交叉; 5)缩小代理交叉 常用的交叉算子为单点交叉。具体操作是:在个体串中随机设定一个交叉点,实行交叉时,该点前或后的两个个体的部分结构进行互换,并生成两个新个体。下面给出了单点交叉的一个例子:

个体A :1 0 0 1 ↑1 1 1 → 1 0 0 1 0 0 0 新个体 个体B :0 0 1 1 ↑0 0 0 → 0 0 1 1 1 1 1 新个体 3.3. 变异

变异算子的基本内容是对群体的个体串的某些基因座上的基因值变动。基于字符集{0,1}的二值码串而言,变异操作就是把某些基因座上的基因值取反,即1→0或0→1。

一般来说,变异算子操作的基本步骤如下:

(1)在群体中所有个体的码串范围内随机地确定基因座。

(2)以事先设定的变异概率Pm 来对这些基因座的基因值进行变异。

遗传算法引入变异的目的有两个:一是使遗传算法具有局部的随机搜索能力。当遗传算法通过交叉算子已接近最优解领域时,利用变异算子的这种局部随机搜索能力可以加速向最优解收敛。显然,此种情况下的变异概率应取较小值,否则接近最优解的积木块会因变异而遭到破坏。二是使遗传算法可维持群体多样性,以防止出现未成熟收敛现象。此时收敛概率应取较大值。

4. 迭代终止

当遗传算法已经寻找到最优的投影方向或者迭代次数已经达到预先设定的次数时,算法迭代终止,这时所返回的值即为本次寻优过程所得到最优的投影方向。

六、实证分析

本文应用投影寻踪聚类模型对上市公司的股价的高低进行分析,所选的盈利指标是每股现金流量和每股收益、每股净资产、股东收益率、净资产收益率、总资产收益率、销售利润率、主营业务收益率等等。把每股收益、每股净资产、净资产收益率这三个指标作为聚类的标准。其中:

净资产利润率=净利润/平均净资产(平均股东权益); 每股收益=净利润/期末总股本; 每股净资产=期末净资产/期末总股本。

样本股票的指标数据来自于华夏证券网公布的深圳2003年中期上市公司财务指标(如下表:原始股票样本数据表)

原始股票样本数据表

序 号 股票 代码 股票 简称 每股收益

摊薄(元) 每股净

资产(元)

净资产收 益率% 总股本 (万股) 股东 人数 投影 特征值 分类 结果 1 000488 晨鸣纸业 0.39 4.45 8.83 89772.79 49314 1.6257 1 2 000538 云南白药 0.3257 2.82 11.54 18581.8 14030 1.3397 2 3 000605 四环药业 0.11 1.53 7.43 8250 6174 0.66032 3 4 000631 蓝宝信息 0.0878 3.22 2.73 24036.96 40601 0.55416 3 5 000881 大连国际 0.027 2.29 1.18 30891.84 68148 0.33647 4 6 000961 大连金牛 0.05 3.5 1.35 30053 74276 0.4742 4 7 000965 天水股份 0.016 2.57 0.62 23870.54 32323 0.28538 4 8 000407 胜利股份 0.053 2.25 2.36 23958.88 65959 0.4362 4 9 000410 沈阳机床 0.03 2.31 1.25 34091.93 68727 0.37511 4 10 000510 金路集团 0.09 1.36 6.53 60918.23 90129 0.76483 3 11 000527 粤美的 A 0.24 4.77 5.06 48488.97 144585 1.1481 2 12 000633 合金投资 0.1191 1.59 7.49 32092.2 3323 0.74452 3 13 000637 茂化实华 0.112 2.04 5.49 28978.56 6365 0.65497 3 14 000687 保定天鹅 0.088 3.24 2.7 32080 54753 0.58434 3 15 000819 岳阳兴长 0.042 2.27 1.85 16513.39 17263 0.34416 4 16 000852 江钻股份 0.1115 2.43 4.59 28000 29997 0.64465 3 17 000918 亚华种业 0.124 4.02 3.09 17000.2 16092 0.64583 3 18 000960 锡业股份 0.0607 3.29 1.86 35790.4 85274 0.52768 3 19 000002 万科 A 0.15 3.1 4.83 136540.6 248117 1.1847 2 20

000012

南玻科控

0.14

2.95

4.6

67697.54

61534

0.84962

3

将样本指标数据代入投影寻踪模型,其中n =20,m =5,给定3max +=r R ,由于模型比较麻烦在此不予给出。通过模型运算得到最优投影方向向量)15169.0,36518.0,55317.0,26736.0,68276.0(=a 。

根据投影方向向量值的大小可知,每股收益、净资产收益率是影响分类结果的主要因素。同时可以利用∑===

5

1

)20,,2,1(j ij

j

i i x a

z 计算

各个样本的投影特征值。根据股票样本的投影特征值的大小,将20支股票分为4类,投影

特征值越大说明对应的股票投资价值越大。分类结果如下:

第1类:晨鸣纸业。这类股票是明显的高收益的绩优股,发展前景令人期待,投资价值比较大。

第2类:云南白药,粤美的A,万科A共有3支股票。这类股票有较好的发展态势,但盲目介入有一定风险,投资者可适当关注,择机介入。

第3类:四环药业,兰宝信息,金路集团等共有10支股票。这类股票业绩一般,操作上以回避为主,不过也可能有反弹空间,故还是以观望为主。

第4类:大连国际,大连金牛,天水股份等共有6支股票。这类股票是明显的低收益的绩差股,投资上还是以回避为好。

七、结语

PP的最显著特点是克服了高维点稀分布所造成的“维数祸根”困难,是对传统证实性数据分析思维方法的突破。其次,它使用了降维手段,当维数较高时,数据结构常表现在几个投影方向上。PP法正好能找出反映数据结构的投影方向,而排除了那些与结构无关的投影方向上的数据的干扰作用,因此,它能有效地发现高维数值的结构和特征。再次,由于PP采用了探索性数据分析方法,与传统的证实性数据分析思维方法法相比,它在处理数据时,无须人为假定,不会损失大量有用的偏态信息,能自动找出数据内在规律,因此稳健性较好。

参考文献

[1]P.J. Huber,Projection Pursuit,Ann.Stasties.1985;

[2]成平,李国英投影寻踪—一类新兴的统计方法,应用概率统计,1986;

[3]J.H. Friedman, W.Stuetzle, A.SehLroeder,Projection Pursuit Density Estimation,J.Amer.Stat.Assoe.1984

[4]张健,两类探索性PP指标,应用概率统计,1993;

[5]宋立新,成平,投影寻踪回归逼近的均方收敛性,应用概率统计,1996;

[6]田铮,戎海武,PPR的收敛性及全向攻击导弹数据处理,应用概率统计,1993;

投影寻踪技术的理论及应用研究进展

第24卷第1期2009年2月柳 州 师 专 学 报Journal of Liuzhou Teachers College Vol 124No 11 Feb 12009  [收稿日期]2008-11-10  [基金项目]广西青年科学基金(0832092)  [作者简介]吴春梅(1970— ),女,讲师,研究方向:计算机应用和神经网络应用;罗芳琼(1971—),女(壮族),广西忻城人,讲师。投影寻踪技术的理论及应用研究进展 吴春梅,罗芳琼 (柳州师范高等专科学校数学与计算机科学系,广西柳州 545004) 摘 要:投影寻踪技术是国际统计界于70年代中期发展起来的、用来处理和分析高维观测数据,尤其是非正态、非线性高维数据的一种新兴统计方法。它利用计算机直接对高维数据进行投影降维分析,进行数据客观投影诊断,自动找出能反映高维空间规律的数据结构,达到研究分析高维数据的目的。本文对30多年来投影寻踪技术在应用领域方面的文献进行收集整理,探讨投影寻踪技术在相关领域的应用和发展状况,为从事投影寻踪研究或应用的专业人员获取和利用相关信息提供线索和参考。 关键词:投影寻踪;岭函数;回归分析 中图分类号: TP30116 文献标识码: A 文章编号: 1003-7020(2009)01-0120-06 0 前言 近三十多年来,随着计算技术的发展和计算机的普及,国际统计界发展了一类处理和分析高维数据的新兴统计方法———投影寻踪(Projection Pursuit ,简称 PP )法,它是采用“审视数据→模拟→预测”探索性数 据分析(Exploratory Data Analysis ,简称EDA )的新途径[1],适宜于非线性、非正态分布数据的处理,并能避免“维数祸根”,因为投影寻踪技术不需要人为地把高维数据整理成知识、构造成数据库进行训练后再推理,而是直接利用计算机对高维数据进行投影降维分析,进行数据客观投影诊断,自动找出能反映高维空间规律的数据结构,它具有稳健性、抗干扰性和准确度高等优点,因此在许多领域获得成功应用[2-3] 。 1 投影寻踪技术的产生背景与实现方 法 111 投影寻踪技术的产生背景 随着科学技术的发展,高维数据的统计分析越来越普遍,也愈来愈重要。多元分析方法是解决这类问题的有力工具。但传统的多元分析方法是建立在总体服从某种分布比如正态分布这个假定基础之上的,采用所谓的“对数据结构或分布特征作某种假定———按照一定准则寻找最优模拟———对建立的模型进行证实”,也就是“假定—模拟—检验”这样一种证实性 数据分析法(C onfirmatory Data Analysis ,简称CDA )。但实际问题中有许多数据并不满足正态分布,需要用稳健的或非参数的方法去解决。不过,当数据维数很高时,这些方法都将面临一些困难:(1)随着维数增加,计算量迅速增大;(2)对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”,非参数法也很难使用;(3)低维稳健性好的统计方法用到高维时稳健性变差。因此,当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,传统的CDA 方法很难收到好的效果。其原因是它过于形式化、数学化,受束缚大,难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。为了克服上述困难,需要对客观数据不作假定或只作极少假定,而采用“直接审视数据———通过计算机模拟数据结构———检验”这样一种探索性数据分析方法。而PP 就是实现这种新思维的一条行之有效的途径。 PP 最早由Kruskal 在70年代初提出并进行试 验。他把高维数据投影到低维空间,发现数据的聚类结构和解决化石分类问题[4-5] 。随后Friedman 和 Tukey 提出了一种把整体上的散布程度和局部凝聚 程度结合起来的新指标进行聚类分析,正式提出了 PP 概念[6]。1981年,Friedman 等人相继提出了PP 回归,PP 分类和PP 密度估计[7],Donoh 则提出了用 21

投影寻踪模型

投影寻踪方法及应用 内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。最后结合上市公司的股价进行实证分析,并给出结论和建议。 关键词:投影寻踪投影寻踪聚类模型遗传算法 一、简介 (一)产生背景 随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。多元分析方法是解决高维数据这类问题的有力工具。但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。对于核估计,近邻估计之类的非参数法很难使用。第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。 另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。 (二)发展简史 PP最早由Kruskal于70年初建议和试验。他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。1979年后,Friedman 等人相继提出了PP回归、PP分类和PP密度估计。在这以后Huber等人积极探索了PP的理论。1981年Donoho提出了用Shannan嫡作投影指标比wiggins用标准化峰度更好的方法,接着他又利用PP的基本思想给出了多元位置和散布的一类仿射同变估计。Diaeonis、Friedman和Jones等还讨论了与PP有关的其他理论问题。上述工作和结果在1985年Huber 的综述论文中作了概括和总结。

投影寻踪模型

2 投影寻踪评价模型 投影寻踪方法最早出现于20世纪60年代末,Krusca 首先使用投影寻踪方法,把高维数据投影到低维空间,通过计算,极大化一个反映数据聚集程度的指标,从而找到反映数据结构特征的最优投影方向。它是用来分析和处理高维观测数据,尤其是对于非线性、非正态高维数据的一种新型统计方法。目前已广泛地应用于分类、模式识别、遥感分类、图像处理等领域。具体应用过程如下: 设投影寻踪问题的多指标样本集为{}n j m i j i x ,,1;,,1),( ==,其中, m 是样本的个数,n 为指标个数。建立投影寻踪模型的步骤如下: (1)数据预处理:样本评价指标集的归一化处理,消除各指标值的量纲和统一各指标值的变化范围。对于越大越优的指标:))()(/())(),((),(min max min j x j x j x j i x j i x --=*(1);对于越小越优的指标:))()(/()),()((),(min max max j x j x j i x j x j i x --=*(2);其中,)(max j x )(min j x 为第j 个指标的最大值、最小值。 (2)构造投影指标函数: 设A(j)为投影方向向量,样本i 在该方向上的投影值为:∑=*=n j j i X j A i Z 1),()()( (3) 即构造一个投影指标函数Q(A)作为确定投影方向优化的依据,当指标达到极大值时,就认为是找到了最优投影方向。在优化投影值时,要求Z(i)的分布特征应满足:投影点局部尽可能密集,在整体上尽可能散开。因此,投影指标函数为:Q(A)=S z *D z ,式中:S z — 类间散开度,可用Z(i)的标准差代替;D z — 类内密集度,可表示为Z(i)的局部密度。其中: 212 1)}1/(])([{--=∑=m Z i Z S m i z ; )()(11 ij m i m j ij z r R I r R D -*-=∑∑== Z —序列{Z (i )|i =1~m }的均值;R 是由数据特征确定的局部宽度参数,其值一般可取0.1*S z ,当点间距值ij r 小于或等于R 时,按类内计算,否则按不同的类记;ij r =| Z(i)一Z(j)|;符号函数I (R -ij r )为单位阶跃函数,当R ≥ ij r 时函数值取1,否则取0。 (3)估计最佳投影方向:通过求解下面的优化模型来计算最佳投影方向: 目标函数:)(max A Q ;约束条件:∑=n j j a 12 =1; (4)等级评价:得到近似最佳投影方向后,计算各等级样本点的投影值,建立等级评价方法,并对待评价样本进行归一化处理后计算其投影值,按等级评价标准,确定待评样本所属类别。

基于遗传算法的投影寻踪模型Matlab源码

基于遗传算法的投影寻踪模型Matlab源码 %% “投影寻踪+遗传算法优化”的主仿真程序 % GreenSim团队原创作品,转载请注明 % Email:greensim@https://www.doczj.com/doc/2f16410008.html, % GreenSim团队主页:https://www.doczj.com/doc/2f16410008.html,/greensim % [color=red]欢迎访问GreenSim——算法仿真团队 →[url=https://www.doczj.com/doc/2f16410008.html,/greensim]https://www.doczj.com/doc/2f16410008.html,/greensim[/url][/color] %% 第一步:仿真参数设置 clear clc close all load Q5.txt DD=Q5;%导入D矩阵 [n,p]=size(DD); np=15; %训练样本的个数,前面1~np个样本用于建立模型,剩下的样本用于预测if np>=n error('用于预测的样本个数不能大于或等于样本总数,请重新设置'); end year=1:np;%选择参与计算的样本,默认选择全部 Factor=1:p;%选择部分指标,默认选择全部 D=DD(year,Factor); K=50; %迭代次数 N=30; %种群规模 Pm=0.3; %变异概率 LB=-ones(1,p); %决策变量的下界 UB=ones(1,p); %决策变量的上界 Alpha=0.1; %窗口半径系数,典型取值0.1b %% 调用遗传算法优化投影寻踪模型的程序 [BESTX,BESTY,ALLX,ALLY]=GAUCP(K,N,Pm,LB,UB,D,Alpha) %% 以下均为整理输出结果 %所有数据都在workspace里,最值得关注的三个数据是 % Z 投影指标值,和参考文献里的符号是一致的 % Best_a 最佳投影向量,参考文献里也是用的符号a,这里加了个前缀Best,表示最佳% BESTY 投影寻踪模型中的目标函数的变化情况,文献中的模型是最大化模型,这里按照惯例,对其加了个负号成为最小化模型 Best_a=(BESTX{K})';%方向向量 disp('最佳投影向量为'); disp(Best_a); d=zeros(np,p); DDjmax=max(DD); DDjmin=min(DD); for i=1:np d(i,:)=(DD(i,:)-DDjmin)./(DDjmax-DDjmin);

投影寻踪 遗传算法MATLAB程序

clear close all Alpha=0.1; X=load('d:\data.txt'); for k=1:21 eval(sprintf('syms a%d',k)); end a=[a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13,a14,a15,a16,a17,a18,a19,a 20,a21]; [n,p]=size(X); x=zeros(n,p); Xjmax=max(X); Xjmin=min(X); for i=1:n x(i,:)=(X(i,:)-Xjmin)./(Xjmax-Xjmin); end %构造投影指标 for i=1:n Z(i)=sum(a.*x(i,:)); end %计算投影指标函数 meanZ=mean(Z); Sa=0; for k=1:n sa=(Z(i)-meanZ).^2; Sa=Sa+sa; Sa=sqrt(Sa/n); end R=Alpha*Sa; Da=0; for k=1:n rik=abs(Z(i)-Z(k)); %if R>rik Da=Da+rik; %end end Qa=Sa*Da;

%选择操作 function ret =select(individuals,sizepop) individuals.fitness=1./(individuals.fitness); sumfitness=sum(individuals.fitness); sumf=individuals./fitness; index=[]; for i =1:sizepop pick=rand; while pick==0 pick=rand; end for j =1:sizepop pick =pick-sumf(j); if pick<0 index=[index j]; break; end end end indivlduals.chrom=indivuduals.chrom(index,:); individuals.fitness=individuals.fitness(index); ret=individuals; %交叉操作 function ret=Cross(pcross,lenchrom,chrom,sizepop,bound) for i=1:sizepop pick = rand(1,2); while prod(pick)==0 pick=rand(1,2); end index=ceil(pick.*sizepop); pick=rand; while pick==0 pick=rand; end if pick>pcross continue; end flag=0;

投影寻踪方法在边坡稳定性评价中的应用

投影寻踪方法在边坡稳定性评价中的应用Application of projection pu rsu it method to assessment of slope stability 汪明武,金菊良 (合肥工业大学土木建筑工程学院,安徽合肥230009) 摘要:探讨了基于实码加速遗传算法的边坡稳定性投影寻踪评价模型,并给出了相应算法和流程,实例表明应用投影寻踪方法来评价边坡稳定性是有效可行的,且取得了理想的结果。 关键词:投影寻踪;遗传算法;边坡稳定性;神经网络;综合评价 中图分类号:TU457文献标识码:A文章编号:1000-4548(2002)05-0619-03 作者简介:汪明武(1972-),男,安徽歙县人。2000年于南京大学获博士学位,副教授,现主要从事城市环境岩土工程、工程物探和计算机应用的教学和科研工作。 W ANG Ming-wu,JIN Ju-liang (School of Civil Engineeri ng,Hefei Univers ity of Technology,Hefei230009,China) Abstract:The model of assessment of slope s tability using projection pursuit(PP)method founded on real coding based accelerating genetic algo-rithm(RAGA)is investigated in this paper.The algorithm and the flowchart are also propo sed.T he practical example has s hown that the PP method is feasible and effective to assess the slope s tability. Key words:projection pursuit;genetic algorithm;slope stability;neu ral network;comprehensive evaluation 1引言X 人类活动对地质环境的影响,常诱发各种地质灾害,其中边坡失稳是最主要的一种灾害类型,边坡问题已成为全球性三大地质灾害源(边坡、地震和火山)之一。边坡失稳不仅产生重大经济损失,且多涉及生命财产,故边坡稳定性评价是边坡工程的重要核心内容之一,具有重要的社会和经济意义。 边坡是由漫长的地质作用造成的,地质环境的复杂性和影响边坡稳定性因素(如斜坡的外形、岩性、构造、水、地震和人为因素等)的不确定性,使边坡稳定性问题表现为多因素、多层次和多阶段的复杂动态非线性系统,故边坡稳定性评价是一项复杂的综合评价过程。人们尝试应用模糊综合评价、灰色聚类分析等数学方法进行综合评价,但是这些方法都忽略了评价指标的作用有些是相互依赖或相互关联的。用传统的统计学方法、力学计算法、可靠性分析方法等不能深刻揭示边坡灾害演化的非线性行为,因此传统力学计算方法难以精确解决问题。基于概率理论的可靠性分析方法的实质仍是用泰勒级数展开并忽略高阶项,以得到简单的解析关系[1~4]。基于人工神经网络的评价方法则受知识获取/瓶颈0问题限制,对于边坡工程这样复杂的巨系统,其知识获取将更是一件不容易的事,所以应用神经网络评价边坡稳定性有一定的适用范围和局限性[5,6]。传统的多元分析方法是建立在总体服从某种分布(如正态分布)假定基础上,是采用/假定)模拟)检验0的证实性数据分析法(confirmatory da ta analysis,简称CDA),但实际边坡问题中有许多数据并不满足正态分布,需要用稳健的或非参数的方法去解决。传统的CD A 方法对于高维非正态、非线性数据分析很难收到好的效果。20世纪70年代后期,国际统计界发展了一类处理和分析高维数据的新兴统计方法)))投影寻踪(projec-tion pursuit,简称PP)方法,它采用/审视数据)模拟)预测0探索性数据分析(exploratory data analysis,简称EDA)的新途径,适宜于非线性、非正态分布数据的处理,并能避免/维数祸根0,在许多领域获得了应用[7~12]。 影响与控制边坡稳定因素的数据大多具有高维和非线性特征,基于EDA的PP技术适宜分析和处理这类问题。本文将基于遗传算法的PP方法应用于边坡稳定性的评价预测,并将预测结果与神经网络方法预测结果相比较。 2投影寻踪基本原理 投影寻踪的基本思想是利用计算机技术,把高维数据通过某种组合,投影到低维(1~3维)子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的[7~12]。 X基金项目:安徽省自然科学基金资助项目(01045409;01045102); 安徽省优秀青年科技基金资助项目;合肥工业大学博士专项基 金资助项目 收稿日期:2002-01-07 第24卷第5期岩土工程学报Vol.24No.5 2002年9月Chinese Journal of Geotechnical Engineering Sept.,2002

投影寻踪回归

第一节 投影寻踪回归 我们先介绍一下Peter Hall 提出的投影寻踪回归(Projection Pursuit Regression)的思想,它一点也不神秘。 我们手中的资料是k n k k k x Y x ,},{1=是p 元,Y k 是一元。非参数回归模型是 n k x G Y k k k ≤≤+=1 ,)(ε () 我们的任务是估计p 元函数G ,当然}|{)(x x Y E x G k k ==。G 是将p 元变量映像成一元变量,那么何不先将p 元变量投影成一元变量,即取k x u θ'=,再将这个一元实数u 送进一元函数G 作映像呢由于要选择投影方向),,(1p θθθ =,使估计误差平方和最小,就是要寻踪了。所以取名为投影寻踪回归。 具体操作如何选方向θ,如何定函数G ,如何证明收敛性,下面将逐步讲述。需要指出的是,投影寻踪回归与单指针半参数回归模型的思想基本上一样,基本算法也差不多,差别大的方面是收敛结果及证明。若论出现时间,投影寻踪回归较早,在1989年,单指针模型较晚,在1993年。 一、投影寻踪回归算法 假设解释变量集合}1,{n k x k ≤≤是来自密度函数为f 的p 元随机样本,对每一个p 元样本x k ,有一元观察Y k 与之对应,并且 < )()|(x G x x Y E k k == () 这里G 是回归函数,也是目标函数。令Ω为所有p 维单位向量的集合,θ,θ1,θ2,…是Ω中的元素。如果H 是一个p 元函数,比如f 或G ,则H 沿方向θ的方向导数记作 u x H u x H x H n /)}()({lim )(0 )(-+=→θθ () 假如这个极限存在的话。高阶导数则记作)()()(2121)(θθθθH H =?,等等。x ∈R p 的第i 个分量记作 x (i ) ,点积)()(i i y x y x ∑=?,模长2 1)(x x x ?=。符号A 表示R p 的子集,通常是指凸集。I (·∈ A)表示A 的示性函数,I (x ∈A )=1,0)(=∈A x I 。u 一般代表实数。

基于偏最小二乘回归的投影寻踪耦合模型在土地利用预测中的应用

收稿日期:2009-10-29修稿日期:2010-04-01第一作者:李逸川(1986-),女,吉林延边人,硕士研究生。主要研究方向为地理信息系统应用。E-mail:liyichuan@https://www.doczj.com/doc/2f16410008.html, 通讯作者:王海涛(1979-),男,黑龙江龙江人,硕士研究生。主要研究方向为土地利用规划和遥感资源调查。E-mail:wanght001979@https://www.doczj.com/doc/2f16410008.html, 中国土地科学China Land Science Vol.24No.5May.,2010 第24卷第5期2010年5月Application of Coupling Model of Projection Pursuit Based on Partial Least-Square Regression in Land Use Prediction LIYi-chuan1,WANGHai-tao2,TIANShu-fang1 (1.SchoolofEarthSciencesandResources,ChinaUniversityofGeosciences(Beijing),Beijing100083,China;2.SchoolofUrbanandEnuironmentalSciences,ChangchunNormalUniversity,Changchun130032,China)Abstract:Thepurposeofthispaperistoestablishthecouplingmodelofprojectionpursuitbasedonpartialleast-squareregression(PLS-PP)soastoimprovetheprecisionoflanduseprediction.Methodsemployedincludeliteratureanalysis,partialleast-squareregressionmodel,projectionpursuitmodelandempiricalanalysis.Theresultsindicate:(1)themeanabsolutevalueofrelativeerrorofthepredictionresultsofthismodelhasbeenreducedat0.13%(theoriginalis3.92%inthePLSmodel);(2)theprojectionpursuitandpartialleast-squareregressionhavebeencoupledandthefactorswhichhavestronginfluencesonthedependentvariableshavebeenextracted.Theproblemofmulti-collinarityamongstvariableshasbeensolvedandtheinputdimensionshavebeenreduced.Theimplementationofthemodelissimpleriftheprojectionindexfunctionisoptimizedbyusingthereal-codedaccelerategeneticalgorithm.ItisconcludedthatPLS-PPCouplingModelisaneffectivemethodforresearchonlanduseprediction,whichcansupportthemanagementofregionallandresourceandthepolicymakingoflocaleconomicdevelopment. 基于偏最小二乘回归的投影寻踪耦合模型 在土地利用预测中的应用 李逸川1,王海涛2,田淑芳1 (1.中国地质大学(北京)地球科学与资源学院,北京100083;2.长春师范学院城市与环境科学学院,吉林长春130032) 摘要:研究目的:构建偏最小二乘回归投影寻踪耦合模型(PLS-PP),提高土地利用预测精度。研究方法:文献分析法,偏最小二乘回归模型和投影寻踪模型,实证分析法。研究结果:(1)此模型预测结果的相对误差绝对值均值从PLS模型的3.92%,降低到了0.13%;(2)将投影寻踪与偏最小二乘回归耦合,运用偏最小二乘回归法提取对因变量影响强的成分,克服了变量之间多重相关性的问题,并降低投影寻踪输入维数。运用基于实数编码的加速遗传算法来优化投影指标函数,实现过程更为简单。研究结论:PLS-PP耦合模型是研究土地利用预测的有效的方法,可以为区域土地资源管理和制定地方经济发展政策提供支持。 关键词:土地利用预测;偏最小二乘回归投影寻踪中图分类号:F301.2 文献标识码:A 文章编号:1001-8158(2010)05-0009-04

matlab和投影寻踪

有没有关于用matlab编制投影寻踪方面的程序代码? 找代码的话,不要直接找。列出关键部分,比如说你的投影寻踪,你认为这里哪些算法才是核心内容,然后寻找这样的代码。最好是给出核心代码的英文翻译。 基于遗传算法的投影寻踪模型Matlab源码 基于遗传算法的投影寻踪模型Matlab源码 %% “投影寻踪+遗传算法优化”的主仿真程序 % GreenSim团队原创作品,转载请注明 % Email:greensim@https://www.doczj.com/doc/2f16410008.html, % GreenSim团队主页:https://www.doczj.com/doc/2f16410008.html,/greensim % [color=red]欢迎访问GreenSim——算法仿真团队→ [url=https://www.doczj.com/doc/2f16410008.html,/greensim]https://www.doczj.com/doc/2f16410008.html,/greensim[/url][/c olor] %% 第一步:仿真参数设置 clear clc close all load Q5.txt DD=Q5;%导入D矩阵 [n,p]=size(DD); np=15; %训练样本的个数,前面1~np个样本用于建立模型,剩下的样本用于预测if np>=n error('用于预测的样本个数不能大于或等于样本总数,请重新设置'); end year=1:np;%选择参与计算的样本,默认选择全部 Factor=1:p;%选择部分指标,默认选择全部 D=DD(year,Factor); K=50; %迭代次数 N=30; %种群规模 Pm=0.3; %变异概率 LB=-ones(1,p); %决策变量的下界 UB=ones(1,p); %决策变量的上界 Alpha=0.1; %窗口半径系数,典型取值0.1b %% 调用遗传算法优化投影寻踪模型的程序 [BESTX,BESTY,ALLX,ALLY]=GAUCP(K,N,Pm,LB,UB,D,Alpha)

基于遗传算法(粒子群算法、人工鱼群算法等)的投影寻踪模型MATLAB源代码

基于遗传算法(粒子群算法、人工鱼群算法等)的投影寻踪模型 MATLAB源代码 投影寻踪是一种处理多因素复杂问题的统计方法,其基本思路是将高维数据向低维空间进行投影,通过低维投影数据的散布结构来研究高维数据特征,可用于聚类、分类、综合评价、预测等。投影寻踪模型最终可归结为一个非线性连续函数优化模型,可以采用遗传算法、粒子群算法、人工鱼群算法或人工免疫克隆优化算法等进行求解,得到最优的投影向量。 %% 第一步:仿真参数设置 clc clear close all load data1.txt D=data1;%导入D矩阵 [n,p]=size(D); K=300;%迭代次数 N=100;%种群规模 Pm=0.3;%变异概率 LB=-ones(1,p);%决策变量的下界 UB=ones(1,p);%决策变量的上界 Alpha=0.1;%窗口半径系数,典型取值0.1b %% 调用遗传算法 [BESTX,BESTY,ALLX,ALLY]=GAUCP(K,N,Pm,LB,UB,D,Alpha); % GreenSim团队——专业级算法设计&代写程序 % 欢迎访问GreenSim团队主页→ %% 整理输出结果 Best_a=(BESTX{K})';%方向向量 d=zeros(n,p); Djmax=max(D); Djmin=min(D); for i=1:n d(i,:)=(D(i,:)-Djmin)./(Djmax-Djmin);

end Z=zeros(n,1); for i=1:n Z(i)=abs(sum(Best_a.*d(i,:))); end Z=abs(Z); figure%投影散布图 plot(abs(Z),'bd','LineWidth',1,'MarkerEdgeColor','k','MarkerFac eColor','b','MarkerSize',5); %axis([1,12,0,2.5]);%图形边界根据需要显示 grid on xlabel(' ','FontName','TimesNewRoman','FontSize',12); ylabel('Projective Value','FontName','Times New Roman','Fontsize',12); figure [newZ,I]=sort(Z); plot(abs(newZ),'bd','LineWidth',1,'MarkerEdgeColor','k','Marker FaceColor','b','MarkerSize',5); %axis([1,12,0,2.5]);%图形边界根据需要显示 grid on xlabel(' ','FontName','TimesNewRoman','FontSize',12); ylabel('Projective Value','FontName','Times New Roman','Fontsize',12); %% disp('最佳投影向量为') disp(Best_a); function [BESTX,BESTY,ALLX,ALLY]=IGAUCP(K,N,Pm,LB,UB,D,Alpha) %%遗传算法求解投影寻踪模型 % GreenSim团队——专业级算法设计&代写程序 % 欢迎访问GreenSim团队主页→ %% 输入参数列表

相关主题
文本预览
相关文档 最新文档