投影寻踪评价模型20页PPT
- 格式:ppt
- 大小:2.36 MB
- 文档页数:20
第19期第52卷第19期2013年10月湖北农业科学Hubei Agricultural SciencesVol.52No.19Oct.,2013收稿日期:2013-01-05作者简介:李学法(1965-),男,山东聊城人,高级工程师,主要从事总图设计与环保研究,(电话)0531-********(电子信箱)sdlixuefa@。
水质评价是根据某些水质指标值通过建立数学模型,对某水体的等级进行综合评判,为水体的科学管理和污染防治提供决策依据[1-3]。
由于水质类型往往由多个非线性指标来决定,采用传统的数据分析方法建立水质评价模型时由于受到过于数字化的限制,难以找到数据的内在规律,因此需要建立多因子评价体系的水质评价模型[4-6]。
研究选取溶解氧、高锰酸盐指数、五日生化需氧量、氨氮、总磷、总氮6个指标作为评价因子,建立投影寻踪法的水质评价模型,借助粒子群算法确定投影过程中最佳投影方向,从而确定各评价因子权重,将高维数据投影到一维空间上进行水质综合评价。
1材料与方法此次研究的数据来源于潘家口水库1996-2005年的水质监测年平均值。
根据实际情况选取溶解氧、高锰酸盐指数、五日生化需氧量、氨氮、总磷、总氮6个指标作为潘家口水库水质的评价因子。
投影寻踪水质评价模型的建立步骤如下:1)评价指标集的归一化处理;2)线性投影;3)建立投影目标函数;4)优化投影方向;5)建立水质综合评价模型;6)评价待测样本。
粒子群优化算法(PSO)的思路为计算微粒对于空间位置的适应度,从而找到最优位置。
2结果与分析2.1水质评价过程水质评价标准参照GB 3838-2002《地表水环境质量标准》[7],每个评价指标分为5个等级(表1)。
表1中水质评价有6个指标,每个指标分5个等级,因此属于六维数据。
为提高模型的精度,将评基于粒子群优化算法的投影寻踪水质评价模型李学法1袁周迎红2(1.山东电力工程咨询院有限公司,济南250013;2.无锡商业职业技术学院,江苏无锡214153)摘要:利用投影寻踪法来评价水质,利用粒子群优化算法来求解最优函数问题,计算速度快,精度高。
投影寻踪方法及应用内容摘要:本文从投影寻踪的研究背景出发,给出了投影寻踪的定义和投影指标,在此基础上得出了投影寻踪聚类模型,随后简单介绍了遗传算法。
最后结合上市公司的股价进行实证分析,并给出结论和建议。
关键词:投影寻踪投影寻踪聚类模型遗传算法一、简介(一)产生背景随着科技的发展,高维数据的统计分析越来越普遍,也越来越重要。
多元分析方法是解决高维数据这类问题的有力工具。
但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。
不过实际问题中有许多数据不满足正态假定,需要用稳健的或非参数的方法来解决。
但是,当数据的维数很高时,即使用后两种方法也面临以下困难:第一个困难是随着维数增加,计算量迅速增大。
第二个困难是对于高维数据,即使样本量很大,仍会存在高维空间中分布稀疏的“维数祸根”。
对于核估计,近邻估计之类的非参数法很难使用。
第三个困难是对低维稳健性好的统计方法,用到高维时则稳健性变差。
另一方面,传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定——按照一定准则寻找最优模拟——对建立的模型进行证实”这样一条证实性数据分析思维方法〔简称CDA法)。
这种方法的一个弱点是当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,很难收到好的效果。
其原因是证实性数据分析思维方法过于形式化、数学化,受束缚大。
它难以适应千变万化的客观世界,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。
针对上述困难,近20年来,国际统计界提出采用“直接从审视数据出发—通过计算机分析模拟数据—设计软件程序检验”这样一条探索性数据分析新方法,而PP就是实现这种新思维的一种行之有效的方法。
(二)发展简史PP最早由Kruskal于70年初建议和试验。
他把高维数据投影到低维空间,通过数值计算得到最优投影,发现数据的聚类结构和解决化石分类问题。
1974年Frledman和Tukey加以改正,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,正式提出了PP概念,并于1976年编制了计算机图像系统PRIM——9。
2 投影寻踪评价模型投影寻踪方法最早出现于20世纪60年代末,Krusca 首先使用投影寻踪方法,把高维数据投影到低维空间,通过计算,极大化一个反映数据聚集程度的指标,从而找到反映数据结构特征的最优投影方向。
它是用来分析和处理高维观测数据,尤其是对于非线性、非正态高维数据的一种新型统计方法。
目前已广泛地应用于分类、模式识别、遥感分类、图像处理等领域。
具体应用过程如下: 设投影寻踪问题的多指标样本集为{}n j m i j i x ,,1;,,1),( ==,其中, m 是样本的个数,n 为指标个数。
建立投影寻踪模型的步骤如下:(1)数据预处理:样本评价指标集的归一化处理,消除各指标值的量纲和统一各指标值的变化范围。
对于越大越优的指标:))()(/())(),((),(min max min j x j x j x j i x j i x --=*(1);对于越小越优的指标:))()(/()),()((),(min max max j x j x j i x j x j i x --=*(2);其中,)(max j x )(min j x 为第j 个指标的最大值、最小值。
(2)构造投影指标函数:设A(j)为投影方向向量,样本i 在该方向上的投影值为:∑=*=nj j i X j A i Z 1),()()( (3)即构造一个投影指标函数Q(A)作为确定投影方向优化的依据,当指标达到极大值时,就认为是找到了最优投影方向。
在优化投影值时,要求Z(i)的分布特征应满足:投影点局部尽可能密集,在整体上尽可能散开。
因此,投影指标函数为:Q(A)=S z *D z ,式中:S z — 类间散开度,可用Z(i)的标准差代替;D z — 类内密集度,可表示为Z(i)的局部密度。
其中:2121)}1/(])([{--=∑=m Z i Z S m i z ; )()(11ij m i m j ij z r R I r R D -*-=∑∑== Z —序列{Z (i )|i =1~m }的均值;R 是由数据特征确定的局部宽度参数,其值一般可取0.1*S z ,当点间距值ij r 小于或等于R 时,按类内计算,否则按不同的类记;ij r =| Z(i)一Z(j)|;符号函数I (R -ij r )为单位阶跃函数,当R ≥ ij r 时函数值取1,否则取0。