投影寻踪模型
- 格式:doc
- 大小:366.00 KB
- 文档页数:10
基于遗传算法(粒子群算法、人工鱼群算法等)的投影寻踪模型MATLAB源代码投影寻踪是一种处理多因素复杂问题的统计方法,其基本思路是将高维数据向低维空间进行投影,通过低维投影数据的散布结构来研究高维数据特征,可用于聚类、分类、综合评价、预测等。
投影寻踪模型最终可归结为一个非线性连续函数优化模型,可以采用遗传算法、粒子群算法、人工鱼群算法或人工免疫克隆优化算法等进行求解,得到最优的投影向量。
%% 第一步:仿真参数设置clcclearclose allload data1.txtD=data1。
%导入D矩阵[n,p]=size(D)。
K=300。
%迭代次数N=100。
%种群规模Pm=0.3。
%变异概率LB=-ones(1,p)。
%决策变量的下界UB=ones(1,p)。
%决策变量的上界Alpha=0.1。
%窗口半径系数,典型取值0.1b%% 调用遗传算法[BESTX,BESTY,ALLX,ALL Y]=GAUCP(K,N,Pm,LB,UB,D,Alpha)。
% GreenSim团队——专业级算法设计&代写程序% 欢迎访问GreenSim团队主页→%% 整理输出结果Best_a=(BESTX{K})'。
%方向向量d=zeros(n,p)。
Djmax=max(D)。
Djmin=min(D)。
for i=1:nd(i,:)=(D(i,:)-Djmin)./(Djmax-Djmin)。
endZ=zeros(n,1)。
for i=1:nZ(i)=abs(sum(Best_a.*d(i,:)))。
endZ=abs(Z)。
figure%投影散布图plot(abs(Z),'bd','LineWidth',1,'MarkerEdgeColor','k','MarkerFaceColor','b','MarkerSize',5)。
投影寻踪方法及应用内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。
最后结合上市公司的股价进行实证分析,并给出结论和建议。
关键词:投影寻踪投影寻踪聚类模型遗传算法一、简介(一)产生背景随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。
多元分析方法是解决高维数据这类问题的有力工具。
但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。
不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。
但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。
第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。
对于核估计,近邻估计之类的非参数法很难使用。
第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。
另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。
这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。
其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。
它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。
针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。
(二)发展简史PP最早由Kruskal于70年初建议和试验。
他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。
1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。
2 投影寻踪评价模型投影寻踪方法最早出现于20世纪60年代末,Krusca 首先使用投影寻踪方法,把高维数据投影到低维空间,通过计算,极大化一个反映数据聚集程度的指标,从而找到反映数据结构特征的最优投影方向。
它是用来分析和处理高维观测数据,尤其是对于非线性、非正态高维数据的一种新型统计方法。
目前已广泛地应用于分类、模式识别、遥感分类、图像处理等领域。
具体应用过程如下: 设投影寻踪问题的多指标样本集为{}n j m i j i x ,,1;,,1),( ==,其中, m 是样本的个数,n 为指标个数。
建立投影寻踪模型的步骤如下:(1)数据预处理:样本评价指标集的归一化处理,消除各指标值的量纲和统一各指标值的变化范围。
对于越大越优的指标:))()(/())(),((),(min max min j x j x j x j i x j i x --=*(1);对于越小越优的指标:))()(/()),()((),(min max max j x j x j i x j x j i x --=*(2);其中,)(max j x )(min j x 为第j 个指标的最大值、最小值。
(2)构造投影指标函数:设A(j)为投影方向向量,样本i 在该方向上的投影值为:∑=*=nj j i X j A i Z 1),()()( (3)即构造一个投影指标函数Q(A)作为确定投影方向优化的依据,当指标达到极大值时,就认为是找到了最优投影方向。
在优化投影值时,要求Z(i)的分布特征应满足:投影点局部尽可能密集,在整体上尽可能散开。
因此,投影指标函数为:Q(A)=S z *D z ,式中:S z — 类间散开度,可用Z(i)的标准差代替;D z — 类内密集度,可表示为Z(i)的局部密度。
其中:2121)}1/(])([{--=∑=m Z i Z S m i z ; )()(11ij m i m j ij z r R I r R D -*-=∑∑== Z —序列{Z (i )|i =1~m }的均值;R 是由数据特征确定的局部宽度参数,其值一般可取0.1*S z ,当点间距值ij r 小于或等于R 时,按类内计算,否则按不同的类记;ij r =| Z(i)一Z(j)|;符号函数I (R -ij r )为单位阶跃函数,当R ≥ ij r 时函数值取1,否则取0。
遗传算法投影寻踪模型近年来,遗传算法在寻优问题中的应用越来越广泛,其中遗传算法投影寻踪模型在MATLAB代码中的实现备受关注。
本文将以此为主题,结合具体的内容,对遗传算法投影寻踪模型进行深入探讨。
一、遗传算法的原理1.1 遗传算法的基本概念遗传算法是一种基于生物进化过程的启发式优化技术,它模拟了自然选择和遗传机制,通过不断的迭代优化过程来寻找最优解。
遗传算法包括选择、交叉、变异等基本操作,其中选择过程通过适应度函数来评价个体的优劣,交叉过程通过染色体的交换来产生新的个体,变异过程通过基因的随机改变来增加种群的多样性。
1.2 遗传算法的应用领域遗传算法广泛应用于优化问题、机器学习、神经网络、信号处理、图像处理等领域,在工程、科学领域有着重要的应用价值。
二、投影寻踪模型的概念2.1 投影寻踪模型的基本原理投影寻踪模型是一种在信号处理领域中常用的算法,其基本原理是通过对信号进行投影变换来实现信号的降维和提取特征。
2.2 投影寻踪模型的应用投影寻踪模型在语音识别、图像处理、数据压缩等方面有着广泛的应用,是一种常见的信号处理技术。
三、MATLAB代码实现3.1 MATLAB环境准备在进行遗传算法投影寻踪模型的实现之前,首先需要在MATLAB环境中准备好相应的工具箱和设置参数。
3.2 遗传算法投影寻踪模型代码编写通过MATLAB的编程能力,可以实现遗传算法投影寻踪模型的代码编写,包括遗传算法的参数设置、适应度函数的定义、种群的初始化、交叉和变异操作的实现等步骤。
3.3 代码调试和优化在编写完整的遗传算法投影寻踪模型代码后,需要进行充分的调试和优化,确保代码的正确性和效率。
四、实验结果分析4.1 实验数据准备在进行实验结果分析之前,需要准备相应的实验数据集,以便进行测试和对比分析。
4.2 结果对比分析通过对遗传算法投影寻踪模型的实验结果进行对比分析,可以评估其算法性能和适用范围,与其他优化算法进行效果比较。
4.3 结果展示与解读最后需要将实验结果进行展示,并对结果进行解读和分析,从数学模型和应用角度分析遗传算法投影寻踪模型的优缺点和改进方向。
基于投影寻踪分类模型的暗管优化布局近年来,随着云计算、大数据分析等领域的快速发展,网络数据中心(Data Center)规模不断扩大,能耗问题成为制约其发展的重要因素之一。
为了降低数据中心的能耗,研究人员提出了如优化布局、深度休眠等措施。
本文将重点介绍一种基于投影寻踪分类模型的暗管优化布局方法。
暗管布局是一种较为常见的优化布局方法。
它将机柜摆放在一定的空间布局中,通过优化过的降温、冷却系统实现机柜的散热。
与传统布局方法相比,暗管布局更加灵活,能够更好地适应不同规模的数据中心。
但是,在实际应用中,暗管布局需要经过多轮试验和调整,效率较低,且本身的优化能力也存在一定局限。
因此,如何进一步优化暗管布局成为研究的热点之一。
基于投影寻踪分类模型的暗管优化布局方法是近年来研究人员提出的一种新型优化方法。
它首先通过数据采集和分析,获取数据中心中设备的工作负载和散热情况。
接着,将这些数据输入到投影寻踪分类模型中进行分析和建模。
在模型分析结果的指导下,优化者可以针对不同的布局方案进行试验和调整,实现数据中心的最优布局。
投影寻踪分类模型是一种基于数据挖掘技术的分类模型。
它通过投影与寻踪算法将数据映射到高维空间中,实现数据的分类和预测。
在暗管优化布局中,投影寻踪分类模型将数据中心的各项指标映射到高维空间中,根据这些指标之间的关系进行分析。
在分析过程中,模型可以确定不同指标之间的权重关系,并根据这些关系提供相关建议,指导优化者调整暗管布局。
基于投影寻踪分类模型的暗管优化布局方法与传统的暗管布局方法相比,具有以下优点:1. 网络数据中心的规模不断扩大,数据量的增加和复杂性的提高为优化带来了极大的挑战。
基于数据挖掘技术的投影寻踪分类模型能够高效地处理大量数据,并提供基于数据的决策支持。
2. 传统的暗管布局方法需要经过多轮试验和调整,效率较低。
基于投影寻踪分类模型的优化方法可以在较短时间内对数据进行分析和建模,提高了优化效率。
2投影寻踪分类模型简介一、投影寻踪分类模型投影寻踪分类模型(Projection Pursuit classification ,简称PPc)的建模过程包括如下几步:步骤1:样本评价指标集的归一化处理。
设各指标值的样本集为{x*(i,j)|i=1,2,…,n; j=1,2,…,p },其中x*(i,j)为第i 个样本第j 个指标值,n,p 分别为样本的个数(样本容量)和指标的数目。
为消除各指标值的量纲和统一各指标值的变化范围,可采用下式进行极值归一化处理:对于越大越优的指标:)(x -)()(x -j)(i,*x =j)(i,x min max min j j x j 对于越小越优的指标: )(x -)(),(*x -(j)x =j)(i,x min max max j j x j i 其中,(j)x max ,)(x min j 分别为第j 个指标值的最大值和最小值,j)(i,x 为指标特征值归一的序列。
步骤2:构造投影指标函数Q(a)。
PP 方法就是把p 维数据{x(i,j)|i=1,2,…,p}综合成以a={a(1),a(2),a(3),…,a(p)}为投影方向的一维投影值z(i)),,()(=)(∑1=j i x j a i z pj i=1,2,…,n然后根据{z(i)|i=1,2,…,n}的一维散布图进行分类。
式(4.2)中α为单位长度向量。
综合投 影指标值时,要求投影值z(i)的散布特征应为:局部投影点尽可能密集,最好凝聚成若干个 点团;而在整体上投影点团之间尽可能散开。
因此。
投影指标函数可以表达成:Q(a)=S z D Z其中,S z 为投影值z(i)的标准差,D z 为投影值z(i)的局部密度,即: 1-E(z))-)((=∑1=2n i z S n i z∑∑1=1=)j)r(i,-u(R ×j))r(i,-(=n j n i Z R D其中,E( z)为序列{z(i)|i=1,2,…,n}的平均值;R 为局部密度的窗口半径,它的选取既要使包 含在窗口内的投影点的平均个数不太少,避免滑动平均偏差太大,又不能使它随着n 的增大 而增加太高,R 可以根据试验来确定; r(i,j)表示样本之间的距离, z(j)-)(=),(i z j i r ;u(t)为一单位阶跃函数,当t ≥0时,其值为1,当t<0时其函数值为0。
投影寻踪方法及应用内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。
最后结合上市公司的股价进行实证分析,并给出结论和建议。
关键词:投影寻踪投影寻踪聚类模型遗传算法一、简介(一)产生背景随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。
多元分析方法是解决高维数据这类问题的有力工具。
但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。
不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。
但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。
第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。
对于核估计,近邻估计之类的非参数法很难使用。
第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。
另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。
这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。
其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。
它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。
针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。
(二)发展简史PP最早由Kruskal于70年初建议和试验。
他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。
1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。
1979年后,Friedman 等人相继提出了PP回归、PP分类和PP密度估计。
在这以后Huber等人积极探索了PP的理论。
1981年Donoho提出了用Shannan嫡作投影指标比wiggins用标准化峰度更好的方法,接着他又利用PP的基本思想给出了多元位置和散布的一类仿射同变估计。
Diaeonis、Friedman和Jones等还讨论了与PP有关的其他理论问题。
上述工作和结果在1985年Huber 的综述论文中作了概括和总结。
我国学者成平和吴健福于1985年证明了PP密度估计的一个收敛性问题,并于1987年给出PP经验分布的极限分布。
陈忠琏和李国英等于1986年用PP方法给出了散布阵和主成分的一类稳健估计。
成平和李国英于1986年还对多元位置和散布的PP型估计性质进行了讨论叫。
陈家弊于1986年证明了密度PP估计的一个极限定理。
宋立新和成平于1996年就PP回归逼近的均方收敛性,回答了Huber1985年的猜想。
这些都是很好的工作。
在PP的应用研究方面,从1985年起,郑祖国、杨力行等人通过几年的潜心研究和探索,成功地完成了投影寻踪回归(PPR)和投影寻踪时序(PPTS)软件包的程序设计,并对大量实例进行了验算。
二、PP及其分类投影寻踪是用来分析和处理高维数据,尤其是来自非正态总体的高维数据的一类统计方法。
其基本思想是:利用计算机技术,把高维数据通过某种组合,投影到低维(1~3维)子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。
它的一般方案是:(l)选定一个分布模型作为标准(一般是正态分布),认为它是最不感兴趣的结构;(2)将数据投影到低维空间上,找出数据与标准模型相差最大的投影,这表明在投影中含有标准模型没能反映出来的结构;(3)将上述投影中包含的结构从原数据中剔除,得到改进了的新数据;(4)对新数据重复步骤(2)(3),直到数据与标准模型在任何投影空间都没有明显差别为止。
PP方法的主要特点是:(l)PP方法能够在很大程度上减少维数祸根的影响,这是因为它对数据的分析是在低维子空间上进行的,对1-3维的投影空间来说,高维空间中稀疏的数据点就足够密了,足以发现数据在投影空间中结构特征;(2)PP方法可以排除与数据结构和特征无关,或关系很小的变量的干扰;(3)PP方法为使用一维统计方法解决高维问题开辟了途径,因为PP方法可以将高维数据投影到一维子空间,再对投影后的一维数据进行分析,比较不同一维投影的分析结果,找出好的投影;(4)与其他非参数方法一样,PP方法可以用来解决某些非线性问题。
PP虽然是以数据的线性投影为基础,但它找的是线性投影中的非线性结构,因此它可以用来解决一定程度的非线性问题,如多元非线性回归;(二)PP的分类PP包括手工PP和机械PP两方面内容。
手工PP主要是利用计算机图像显示系统在终端屏幕上显示出高维数据在二维平面上的投影,并通过调节图像输入装置连续地改变投影平面,使屏幕上的图像也相应地变化,显示出高维数据在不同平面上投影的散点图像。
使用者通过观察图像来判断投影是否能反映原数据的某种结构或特征,并通过不断地调整投影平面来寻找这种有意义的投影平面。
最早的图象显示系统是斯坦福大学教授J.H.Friedman等人1974年编制的,PRIM一9。
利用这个系统可以看到不超过九维的数据在任何二维平面上的投影图象,以发现数据的聚类和超曲面结构。
这个系统还可以只显示指定的区域内的高维点,把其他点移出屏幕不显示出来。
因此当人们在投影平面上发现了某种聚类结构时,可以把不同类的数据分开,再分别考察每个类中的数据的结构和特征。
使用手工PP 成功的例子是美国的Reaven 和Miller 于1979年关于多尿病病理的研究。
他们将145人的5项指标观察值输入PRIM 一9图像显示系统,对5项指标中的每3项指标,观察145个3维点构成的点云在任何2维平面上的投影图像,最后找到了一个在医学上有意义的图像。
从这张图像上可以看到隐性和显性多尿症患者的数据是完全分开的。
不经过中间正常状态,两者是不能相互转换的。
机械PP 是模仿手工PP ,用数值计算方法在计算机上自动找出高维数据的低维投影,即让计算机按数值法求极大解的最优化问题的方法,自动地找出使指标达到最大的投影。
它要求对一个P 维随机向量X ,寻找一个K (K<p )维投影矩阵A ,使定义在某个K 维分布函数集合k F 上的实值函数Q (投影指标),满足Max Ax Q Ax Ax Ax Q k ==)(),,,(21 。
如果原数据确有某种结构或特征,指标又选得恰当,那么在所找到的某些方向上,一定含有数据的结构或特征。
有些传统的多元分析方法可以看成是机械投影寻踪的特例。
例如主成份分析,判别分析等,但是主成分分析方法是用主成分来描述或逼近原始数据,所反映的是数据的全局特征或宏观特征,这样显然就有可能会漏掉主要的局部特征或细节特征。
下面以大家熟知的主成份分析为例具体说明机械投影寻踪方法。
主成份分析的目的是要考察P 维数据n x x x ,,,21 ,是否真正散布在P 维空间上,还是主要只散布在某个维数小于P 的子空间上。
好比一块铁饼,虽然是三维空间中的形体,由于相对地说厚度明显地小,所以它主要是散布在二维平面上的园形东西,在与这个园形垂直的方向上没有多少布散布。
我们取描述一维数据散布程度的标准差作为投影指标。
实数n y y y ,,,21 的标准是∑--=ni n n y y y y y 1221)1/()(),,,( σ,其中n y y ni /1∑=。
用投影寻踪了解数据n x x x ,,,21 的散布情况,就是找出一个方向b ,使得数据在这个方向上的投影的散布达到最大,即),,(m ax ),,('1'1'11'1n a n x a x a x b x b σσ==,1b 就是n x x x ,,,21 的样本协差阵S 的最大特征根1λ的特征向量。
把S 的特征根从大到小排列,记作p λλλ,,,21 ,这样投影寻踪就给出了n x x x ,,,21 的第一主成份n x b x b x b '12'11'1,,, ,它的标准差1'11'1),,(λσ=n x b x b 。
继续作投影寻踪,在与1b 垂直的空间里求单位向量2b ,使),,(m ax ),,('1',1'21'21n b a a n x a x a x b x b σσ<==。
可以证明2b 就是相应于2λ的特征根,进而得到n x x x ,,,21 的第二主成份n x b x b '21'2,, ,及其标准差2λ,如此类推,就可以求出第三、第四主成份等等,直到某个主成份的标淮差接近零为止。
当然,主成份分析只是机械投影寻踪的一个特例。
一般的并不要求后面的投影方向与前面找到的投影方向垂直。
而且,对于主成分分析其样本协方差阵及特征根和特征向量对离群点是非常敏感的,正是由于样本协方差阵的不稳定,造成了传统主成分分析的不稳健。
为了得到稳健性,可以采用稳健的散布度量加以改进另外,实际作主成份分析时也不用求极值的投影寻踪法,而是直接求样协差阵S 的特征根和特征向量。
三、投影指标PP 的出发点是度量投影分布所含信息的多少,而我们知道高维数据集合的线性投影是?几乎正态的,并且正态分布通常为无信息分布的代表。
从而寻求与正态分布差异最大的线性投影分布,即含信息最多的投影分布,成为PP 方法的常用方式之一。
既然如此,那么它是如何实现的呢?为了避免繁杂的细节讨论,突出问题的重点,我们选取简单的度量准则,如方差、偏度、峰度,至于更加复杂的度量准则也有完全类似的描述、解释,这里从略。
(1)方差指标)()(X a Var X a Q T T =设),,,(21n x x x 是总体X 的独立同分布的样本,方差指标的样本形式为21))((1)(∑=-=n i Ti T TX a E x a n X a Q 。
如果我们求)(max X a Q T ,得到的∧a 就是样本散布最大的方向。
主成分分析就是取样本方差为投影指标的PP 方法。
(2)Friedman 指标 设有Legendre 多项式R R Q R Q ==)(,1)(10, 3,2],)1()12[(121=---=--j Q j RQ j jQ j j j设X 为P 维随机向量,协方差阵∑的正交分解T UDU =∑,U 是标准正交阵,D 是对角阵。