基于改进的C-C方法的相空间重构参数选择
- 格式:pdf
- 大小:86.37 KB
- 文档页数:8
第34卷第3期2023年5月㊀㊀水科学进展ADVANCES IN WATER SCIENCEVol.34,No.3May 2023DOI:10.14042/ki.32.1309.2023.03.006融合相空间重构和深度学习的径流模拟预测师鹏飞1,2,赵酉键1,徐辉荣3,李振亚4,杨㊀涛1,2,冯仲恺1,5(1.河海大学水灾害防御全国重点实验室,江苏南京㊀210098;2.长江保护与绿色发展研究院,江苏南京㊀210098;3.广东省水利电力勘测设计研究院有限公司,广东广州㊀510000;4.中国科学院南京地理与湖泊研究所中国科学院流域地理学重点实验室,江苏南京㊀210008;5.河海大学水文水资源学院,江苏南京㊀210098)摘要:发展对数据依赖程度低㊁快捷实用和精准的模拟预报技术,可为资料缺乏地区径流模拟预测提供有效的解决办法㊂从数据驱动的角度,提出一种融合相空间重构(PSR)和长短期记忆神经网络(LSTM)的径流预测复合模型PSR-LSTM,在国内外不同气候分区的10个流域(站点)进行验证㊂结果表明:PSR-LSTM 能够提取水文变量的多维子空间特征,并较好预测不同时间尺度的径流变化过程;相较于LSTM,PSR-LSTM 预测未来1㊁3㊁5㊁7㊁9时间步长的纳什效率系数在10个流域平均提高1.49%~9.77%,均方根误差平均降低17.01%~19.72%,对训练数据量的依赖程度相比LSTM 降低25%~33%㊂研究成果可为广大资料短缺流域水文过程模拟和预测提供参考㊂关键词:径流预测;数据驱动;人工智能;相空间重构(PSR);长短期记忆神经网络(LSTM)中图分类号:TV122㊀㊀㊀文献标志码:A㊀㊀㊀文章编号:1001-6791(2023)03-0388-10收稿日期:2022-11-22;网络出版日期:2023-05-23网络出版地址:https :ʊ /kcms2/detail /32.1309.P.20230522.1828.002.html基金项目:国家自然科学基金资助项目(52279009);中央高校基本科研业务费专项经费资助项目(B220201010)作者简介:师鹏飞(1987 ),男,副教授,博士,主要从事流域水文物理规律模拟及水文预报方面研究㊂E-mail:pfshi@水文预警预报对防洪减灾至关重要,受资料条件和科技水平等制约,在监测资料不足的河流,传统水文模型往往无法建立[1]㊂近年来,受气候变化和高强度人类活动共同影响,极端水文事件发生频次及量级远超历史,流域安全风险问题更加突出㊂2021年郑州 7㊃20 洪涝灾害再次凸显及时预警预报的重要性[2]㊂因此,创新水文预报的技术和方法,发展对数据依赖程度低㊁快捷实用和精准的模拟预报技术,对于难以建模的资料缺乏地区具有重要的科学和现实意义㊂基于物理过程的水文模型是常用的径流模拟预测方法,由于建立物理过程模型所需的降水㊁径流㊁蒸散发㊁流域特性㊁断面形状㊁闸阀工况等数据往往难以全部获取,水文过程建模常存在难度[3],在资料稀缺的中小河流域尤为突出㊂另一方面,数据驱动的模拟预测技术正在经历空前的快速发展㊂国际上,Ham 等[4]研究表明,数据驱动的人工智能(AI)模型用于模拟预测ENSO,相比经典动力学模型,纳什效率系数提升显著;Ravuri 等[5]研究表明,以人工神经网络为代表的机器学习方法,利用历史气象水文时间序列数据即可对洪水进行模拟和实时预测,能够模拟复杂的非线性水文过程,具有精度高㊁时效性强等优点㊂大量研究表明,数据驱动的预报方法不失为一种有效途径㊂长短期记忆神经网络(LSTM)作为一种先进㊁稳定的深度学习算法,被广泛应用在时间序列预测中[6]㊂然而,直接将水文时间序列作为输入,驱动LSTM 进行预测,由于缺乏对水文多维特征复杂信息的挖掘与表征,存在易过度拟合㊁对训练样本量依赖程度高㊁精度不足等问题[7],限制了模拟预测效能,特别是在资料短缺流域㊂如何全面挖掘水文数据中蕴含的水文系统变化规律,提高深度学习算法的径流模拟预测效能,有待深入探究㊂针对上述问题,本研究引入动力系统理论,考虑水文序列的混沌特性,提出基于相空间重构(PSR)的水文变量相空间特征自适应快速挖掘和重建技术,建立基于PSR-LSTM 复合模型的数据驱动模拟技术框架,在㊀第3期师鹏飞,等:融合相空间重构和深度学习的径流模拟预测389㊀国内外不同气候分区的多个流域进行应用验证,以期提升数据驱动模型的模拟预测效能,为资料缺乏地区径流模拟预测提供便捷㊁有效的方法工具㊂1㊀相空间重构和长短期记忆神经网络方法1.1㊀相空间重构方法相空间重构理论最早由Takens 等[8]提出,其目的为在高维相空间中重建混沌吸引子㊂混沌吸引子作为混沌系统的特征之一,体现着混沌系统的规律性(图1)㊂决定系统长期演化任一变量的时间序列,均包含了系统所有变量长期演化信息,因此可由已知的时间序列,恢复并重建原动力系统㊂研究表明,水文序列可视为混沌系统[9],对于某一时间序列X =[x 1,x 2,x 3, ,x N ],在估计出恰当的嵌入维数(m )和延迟时间()后,可以重构相空间,形成N -(m -1)个m 维向量:y 1y 2︙y M éëêêêêêùûúúúúú=x 1,x 1+,x 1+2, ,x 1+(m-1)x 2,x 2+,x 2+2, ,x 2+(m-1)︙x M ,x M +,x M +2, ,x Néëêêêêêùûúúúúú(1)式中:N 为时间序列长度;M 为项点数,M =N -(m -1)㊂图1㊀重构径流时序Lorenz 混沌吸引子示意Fig.1Schematic diagram for reconstruction of the Lorenz attractor series of streamflow1.2㊀最大Lyapunov 指数通过最大Lyapunov 指数(λ>0)可以判断时间序列是否具有混沌特性,目前已经广泛应用在混沌判别和混沌时间序列预测领域中㊂最大Lyapunov 指数可由Wolf 法求解[10]㊂Wolf 法求解最大Lyapunov 指数的计算公式为λ=1t M -t 0ðMi =0ln L iᶄL i(2)式中:L i ᶄ=|X (t i )-X (t i -1)|,L i =|X (t i )-X i (t i )|,X (t i )为相空间重构序列t i 时刻的值;X i (t i )为重构相空间中X (t i )的最邻近点;t 0为初始时刻;t 1为当前时刻;t M 为终点时刻;当λ>0时,认为具有混沌特性㊂1.3㊀长短期记忆神经网络以LSTM㊁循环神经网络(recurrent neural network,RNN)为代表的深度学习算法,因强大的自适应和自学习能力,近年来被广泛应用于电力系统的电力负荷和气象水文要素的预测预报中[11-12]㊂LSTM 通过增加门控机制来控制历史时刻对当前时刻的影响程度,从而解决了RNN 容易产生梯度弥散和梯度爆炸的问题㊂详细介绍可见文献[13]㊂390㊀水科学进展第34卷㊀2㊀PSR-LSTM复合模型构建2.1㊀建模流程资料匮乏地区用于建模的水文变量种类单一㊁样本短缺,难以构建概念性或物理过程模型㊂采用数据驱动模型也面临因特征变量少而陷入过拟合或泛化能力不足的问题㊂针对此,本研究充分挖掘PSR在相空间特征自适应挖掘与重建方面的优势及LSTM在非线性时间序列预测方面的优势,将水文变量信息投映到高维空间中,将重构后的特征向量作为LSTM的特征变量进行建模,构建PSR-LSTM复合模型,以实现快速高效建模,减少数据依赖的同时㊁提高模拟预测精度㊂PSR-LSTM模型分析计算流程如下:(1)数据准备㊂水文过程建模常用数据一般包括降水㊁蒸散发㊁流量㊁水位等时间序列数据(逐日或逐小时)以及下垫面空间数据(DEM㊁地貌㊁植被覆盖㊁水系㊁土壤类型㊁土壤厚度等)㊂考虑水文预报预测快捷建模的需求,结合当前多数中小流域资料短缺的客观实际,本研究仅选取流域中最为常见的水位或流量时间序列用于建模㊂数据前80%作为模型训练集,后20%作为测试集㊂(2)相空间重构㊂考虑仅有径流(水位或流量)数据,属水文 小数据 ,为充分挖掘数据中包含的复杂信息,尽可能全面地考虑水文变量中蕴含的系统规律,采用PSR方法对径流数据进行挖掘分析,获取径流时间序列中蕴含的多维子特征,将一维数据映射到多维相空间中㊂(3)数据标准化㊂对重构后的多维矩阵序列进行归一化处理,范围控制在0~1之间㊂(4)预测模型构建㊂搭建LSTM模型,将基于PSR重构后的每一维特征向量作为LSTM的时间步长输入网络,根据PSR中求取的嵌入维数确定LSTM输入层节点数㊂按批构造实测径流数据,调整超参数确定神经网络的深度,采用Adam优化算法求得模型相对最优解,并在各层之间采用Dropout技术避免模型出现过拟合情况,最后通过反归一化处理得到模型预测值㊂(5)模型效能评价㊂采用纳什效率系数㊁均方根误差㊁洪峰相对误差㊁峰现时间误差等指标进行精度评价,评估模型效能㊂2.2㊀情景模拟分析为分析评估PSR-LSTM模型效能,设置S1㊁S2㊁S3㊁S4和S5共5种情景(表1),其中,S1㊁S2为利用重构后的水文变量进行PSR-LSTM建模的情景,分别采用中等和较少数据量;S3㊁S4和S5为利用原始水文变量进行LSTM建模的情景,分别采用中等㊁较少和较多数据量㊂较多数据量指采用尽可能长的水文时间序列(即表2中序列长度),中等数据量约取较多数据量的80%,较少数据量取60%,通过递减数据量,分析模型训练对数据的依赖程度㊂通过几种情景的对比分析,阐述PSR-LSTM和LSTM模型的预测精度㊁预见期及对数据依赖程度的异同㊂表1㊀不同建模情景对比分析表Table1Comparisons amongst the modeling scenarios情景建模数据量建模策略数据处理输入项模型输出项S1中等重构变量 水文变量相空间重构m Q t-p PSR-LSTM Q tS2较少重构变量 水文变量相空间重构n Q t-p PSR-LSTM Q tS3中等水文变量 水文变量无Q t-p LSTM Q tS4较少水文变量 水文变量无Q t-p LSTM Q tS5较多水文变量 水文变量无Q t-p LSTM Q t 注:n㊁m为数据的维度;p为预见期长度;Q t为预测水文变量;Q t-p为Q t前移p个步长的输入水文变量㊂㊀第3期师鹏飞,等:融合相空间重构和深度学习的径流模拟预测391㊀2.3㊀模型效能评价指标采用纳什效率系数(E NS)㊁均方根误差(E RMS)㊁洪峰相对误差(E PF)和峰现时间误差对模型效能进行评价,公式如下:E NS=1-ðN j=1[Q s(j)-Q o(j)]2/ðN j=1[Q o(j)-Q o]2(3)E RMS=ðN j=1[Q o(j)-Q s(j)]2/N(4)E PF=[(Q sp-Q op)/Q op]ˑ100%(5)式中:Q s(j)为模拟预测值;Q o(j)为实测值;Q o为实测值的平均值;Q sp和Q op分别为模拟和实测洪峰值㊂E NS 越大㊁E RMS越小,表示模拟精度越高,E NS取值最大为1㊂按照水文情报预报规范要求[14],采用洪峰相对误差㊁峰现时间误差对逐小时尺度的模拟预测结果进行评价,对逐日模拟预测值不予评价㊂3㊀实例分析3.1㊀研究区及数据介绍为充分验证模型的鲁棒性,考虑不同气候分区下流域水文规律的差异性,选取了涵盖中国和澳大利亚湿润区㊁半湿润半干旱区和干旱区共10个流域(站点)进行模型应用验证㊂其中,中国流域数据均来自当地水文局(中心)整编数据,澳大利亚数据来自CSIRO建模者数据集[15],数据可靠性高㊂数据时间尺度为逐日或逐小时,有多次水位/流量上涨过程,具有代表性㊂详见表2㊂表2㊀各区域站点资料Table2Information for each study area气候区站名水文变量流域面积/km2年降水量/mm时间步长数据序列所属河流干旱区403222流量415.2304.5逐日1965 2009年10000个数据澳大利亚Buffalo河A2390523流量485.1396.0逐日1973 2012年10000个数据澳大利亚Morambro Ck河巴音布鲁克流量22483.0276.6逐日1960 2003年8768个数据新疆开都河湿润区G8140040流量47651.01088.0逐日1964 2012年10000个数据澳大利亚Dally河926002A流量333.31621.0逐日1966 2012年10000个数据澳大利亚Dulhunty河229661A流量54.51280.0逐日1975 2013年10000个数据澳大利亚Walshs Ck河信宜水位189.01513.0逐小时2019 2022年8761个数据广东鉴江三都流量2621.21821.0逐小时1980 2018年6135个洪水要素摘录数据江西乐安河半湿润半干旱区610008流量14.1746.0逐日1972 2012年10000个数据澳大利亚Ludlow河三门峡流量9376.0405.0逐日1980 2006年9548个数据黄河干流3.2㊀相空间重构参数估计相空间重构的关键在于估计合适的嵌入维数和延迟时间㊂Kim等[16]提出的基于时间窗口的C-C法被广泛应用,本文采用C-C法估计相空间重构的参数,详见文献[16]㊂利用Wolf法计算的最大Lyapunov指数均大于0,表明径流系列均具备混沌特性,参数估计结果见表3㊂392㊀水科学进展第34卷㊀表3㊀各站点相空间重构参数估计Table 3Parameters of phase space reconstruction parameters for each study area气候区站点wmλ干旱区403222723230.1375A2390523633830.0525巴音布鲁克311630.1220湿润区G8140040403420.1371926002A 1783760.0938229661A 524220.2062信宜1899130.0270三都201520.1564半湿润半干旱区6100081513830.0993三门峡181220.2536注:时间窗口w=(m -1)㊂3.3㊀PSR-LSTM 模型训练及参数设置按照预见期分别为1㊁3㊁5㊁7㊁9个时间步长进行建模㊂建模前,对输入数据进行归一化处理,采用Adam(梯度下降法)作为模型优化器,选择E MS 作为代价函数,检验模型预测值和真实值之间的偏差,E MS 公式如下:E MS=1N ðNi =1(Y i -Y ^i)2(6)式中:E MS 为均方误差;Y i 为真实值;Y ^i为模型预测值㊂滑窗长度㊁滑窗数均为深度学习模型的超参数,据此可将数据按批次放入模型中训练㊂通常将参数设置为2的倍数,可较好符合计算机硬件尺寸阵列(如计算机内存单元为210),提升训练效率㊂基于试错法,将滑窗长度设置为16,每批数据包含128个滑窗㊂3.4㊀模拟结果与分析3.4.1㊀PSR-LSTM 与LSTM 对比考虑到在实际应用中,往往较难获取完整的水文时间序列数据㊂故本文选择中等样本数据量进行模型训练,通过对比PSR-LSTM 和LSTM 模型在S1㊁S3情况下的模拟结果,验证PSR-LSTM 的模型性能㊂图2㊀10个流域PSR-LSTM 与LSTM 预测结果对比分析Fig.2Comparisons between the results simulated by PSR-LSTM and LSTM for all watersheds图2所示为PSR-LSTM 和LSTM 模型在10个流域(站点)模拟效能的纳什效率系数㊂随着预见期的增加,2个模型的E NS 均呈下降趋势,而PSR-LSTM 下降过程更平缓,箱体变化范围PSR-LSTM 较LSTM 更小,表明㊀第3期师鹏飞,等:融合相空间重构和深度学习的径流模拟预测393㊀在不同流域的离散程度更低㊂箱体上延线㊁下延线及内部中位数横线均较LSTM更高,特别是5步长以后,模型效能更优㊂在大部分流域的模拟预测中,PSR-LSTM模型预测精度优于LSTM模型,不同预见期下的E NS中位数(箱图中值线)在10个流域平均提升1.49%~9.77%,E RMS平均降低17.01%~19.72%,详见表4㊂表4㊀S1㊁S3建模情景精度对比Table4Comparison between S1and S3scenarios单位:%气候区站点不同步长各站点E NS提升不同步长各站点E RMS降低1357913579干旱区403222 3.589.06 4.727.1910.817.1412.50 5.8813.6416.67 A23905238.05 3.1117.2729.187.9430.0029.1728.5734.3825.71巴音布鲁克0.540.2511.7913.6426.9228.00 3.13 4.8816.9820.69湿润区G8*******.100.580.3911.74 1.7220.0022.7328.5716.1317.14 926002A0.250.790.69 2.65 5.0710.7112.9017.6516.6717.95信宜0.82 3.0012.8120.2016.2138.4643.9037.0428.0029.03 229661A0 2.73 5.29 4.008.38 5.8813.4612.5011.8612.70三都0 2.420.14 2.487.987.1415.2520.9917.7823.47半湿润半干旱区6100080.34 1.16 4.22 1.60-6.8114.2933.3326.0923.0821.43三门峡 1.200.77 1.16 4.99-4.908.477.04 6.5811.9012.36均值 1.49 2.39 5.859.777.3317.0119.3418.8819.0419.72注:步长表示预见期长度㊂根据不同站点数据情况,单位为逐小时或逐日㊂㊀㊀如表5所示,PSR-LSTM预测未来1㊁3㊁5㊁7时间步长的E PF大部分在许可误差(峰值的20%)内,三门峡站从5步长以后预测均超出许可误差,干旱区㊁半湿润半干旱区站点的9步长预测相对误差超出许可误差㊂整体而言,PSR-LSTM在9个时间步长的E PF平均值,不同流域下较LSTM平均降低0.49%~8.93%㊂在逐小时模拟预测(信宜㊁三都站)的峰现时间方面,PSR-LSTM相比LSTM结果相近,但在三都站的3个步长和5个步长预测中,峰现时间均有1h的提升,其他步长的结果一致㊂表5㊀不同预见期洪峰相对误差/峰现时间误差对比Table5Comparison of flood peak relative error/peak time error in different forecast periods单位:%气候区站点不同步长PSR-LSTM模型效能不同步长LSTM模型效能1357913579E PF降低干旱区403222 3.447.6412.7919.5823.3713.627.5720.3228.8641.098.93 A2390523 5.2510.8613.2919.8320.217.6410.7615.4520.3431.45 3.24巴音布鲁克 5.489.3712.3616.3524.31 6.3811.3814.3518.7828.43 2.29湿润区G8140040 5.427.5611.4316.7619.98 6.717.3814.3217.4325.71 2.08 926002A9.3112.4216.7819.0322.4310.2216.8119.4524.6327.45 3.72信宜 1.54/0h 3.76/0h 5.63/0h8.56/2h9.48/3h 1.63/0h 4.34/0h 6.34/0h8.75/2h10.36/3h0.49 229661A 2.91 6.989.9111.2617.73 5.26 6.4613.2623.433.72 6.66三都 3.42/1h7.64/1h9.83/1h14.35/2h19.28/3h 3.65/1h8.78/2h10.98/2h16.67/2h21.73/3h 1.46半湿润半干旱区6100088.4512.3415.3218.4320.3511.3215.4618.8923.4129.32 4.70三门峡15.7819.8925.4729.3732.8718.7821.3826.5730.7836.23 2.07注:表中信宜站和三都站的h为峰现时间单位,小时㊂394㊀水科学进展第34卷㊀3.4.2㊀PSR-LSTM与LSTM模型对训练数据量的依赖程度通过对比S1㊁S2㊁S3㊁S5等4种建模情景,分析模型对训练数据量的依赖程度,结果见表6和图3㊂表6㊀各流域S1㊁S2㊁S3㊁S5不同预见期精度对比Table6Comparison amongst S1,S2,S3and S5for different leading times prediction气候区站名情景不同步长S2㊁S3情景模型E NS对比13579情景不同步长S1㊁S5情景模型E NS对比13579干旱区403222A2390523巴音布鲁克S20.7870.5780.4840.4480.410S10.8110.6140.5330.5220.451S30.7830.5630.5090.4870.407S50.8250.6060.5000.4280.465S20.8640.7140.6450.5230.423S10.8720.7290.6520.6020.435S30.8070.7070.5560.4660.403S50.8650.7030.6170.4690.388S20.9270.8040.6830.5960.542S10.9340.8110.6920.6000.561S30.9290.8090.6190.5280.442S50.9340.8130.6640.5440.504湿润区G8140040926002A229661A信宜三都S20.9580.8460.7220.6220.538S10.9720.8680.7630.6760.592S30.9710.8630.7600.6050.582S50.9710.8730.7690.6670.597S20.8060.7670.7350.6860.671S10.8100.7610.7340.6980.684S30.8030.7530.7220.6690.649S50.8080.7550.7290.6800.651S20.8370.6640.5860.5400.527S10.8560.7150.6370.6240.608S30.8560.6960.6050.6000.561S50.8530.7100.6310.6260.594S20.9950.9740.9760.9410.856S10.9930.9860.9790.9660.938S30.9930.9800.9730.9470.909S50.9940.9870.9750.9520.932S20.9680.8480.6980.5020.431S10.9750.8670.7340.5990.475S30.9670.8410.6400.4780.398S50.9700.8510.7170.5800.451半湿润半干旱区610008三门峡S20.8690.7280.6710.6130.588S10.8740.7830.7170.6340.561 S30.8710.7740.6880.6240.602S50.8640.7860.7020.6340.597 S20.6930.4890.4200.3750.318S10.6720.5220.4360.4000.330 S30.6640.5180.4310.3810.347S50.6740.5180.4310.3810.347㊀㊀表6展示了在不同预见期下,各流域S1㊁S2㊁S3和S5情景的E NS系数对比㊂结果表明:①S1和S5在湿润区㊁半湿润半干旱区精度相似,在干旱区3个步长以后,S1的预测精度均优于S5,即PSR-LSTM 在中等样本量下的效能优于较多样本量下的LSTM㊂②S2在部分流域优于S3,在部分流域劣于S3,总体精度基本相当,可认为PSR-LSTM在小样本量下与LSTM在中等样本量下的效能相似㊂总体而言,从10个流域采用的数据量来看,在相似精度条件下,PSR-LSTM对训练样本的依赖程度较LSTM更低,平均降低约25%~33%㊂为展示模拟预报过程,受限于篇幅长度,仅选择三都站作为代表,绘制了各情景下不同预见期长度的洪水模拟预报过程(小时尺度),见图3(图示为验证期结果,20%的数据长度)㊂可以看出:模型在1~7h预见期时对洪峰预测均取得良好效果,在低流量过程情况时预测值偏高,模型预测实际偏安全,满足洪水预报要求㊂对比各预见期不同情景下的洪水预测过程,1~7h中等数据量PSR-LSTM(S1)与较多数据量LSTM (S5)的预测效果相似,在9h预见期PSR-LSTM(S1)预测更优㊂洪峰预测和低流量预测中较少数据量PSR-LSTM(S2)效果与中等数据量LSTM(S3)基本相当,表明数据量减少情况下,PSR-LSTM模型仍能保持预测效果的稳定㊂㊀第3期师鹏飞,等:融合相空间重构和深度学习的径流模拟预测395㊀图3㊀三都站S1㊁S2㊁S3㊁S5情景各预见期长度下洪水模拟过程对比Fig.3Comparison of flood processes under S1,S2,S3and S5scenarios in Sandu station4㊀结㊀㊀论为对资料短缺流域的水文过程进行快捷实用的建模及预测,本文提出了一种融合相空间重构和长短期记忆神经网络的径流预测复合模型PSR-LSTM,建立了包括数据准备㊁相空间重构㊁数据标准化㊁预测模型构建㊁模型效能评价等步骤的数据驱动建模框架,并将模型在10个不同气候分区流域(站点)进行了应用验证,结论如下:(1)得益于PSR挖掘径流数据中的多维复杂信息,PSR-LSTM模型较LSTM模型具有更高的预测精度㊂预测未来1㊁3㊁5㊁7㊁9时间步长的E NS在10个流域平均提高1.49%~9.77%,个别流域在长预见期时最高可达29.18%,均方根误差平均降低17.01%~19.72%,峰值误差平均降低0.49%~8.93%㊂在逐小时预测的峰现时间误差方面,PSR-LSTM较LSTM有少量降低㊂(2)PSR考虑了水文数据中蕴含的系统变化规律,通过挖掘多维子空间特征,有助于减少对历史数据量的依赖程度㊂PSR-LSTM利用较少样本量建模可达到LSTM利用中等样本量的效能,利用中等样本可优于LSTM利用较多样本的效能,建模所需数据量较LSTM减少25%~33%㊂表明PSR-LSTM模型更适用于样本396㊀水科学进展第34卷㊀短缺的流域,对数据缺乏地区的水文预报工作具有参考意义㊂(3)整体而言,在国内外不同气候分区的10个流域(站点)的模拟结果表明,PSR-LSTM能够较好捕捉不同流域水文过程变化规律,具有良好的适用性和鲁棒性㊂需指出的是,本文仅从水文变量自相关角度进行建模,分析了PSR-LSTM相较LSTM的提升效果,一方面为验证PSR的作用,另一方面旨在为无资料或缺资料流域提供参考方法,因此长预见期时,不可避免出现纳什效率系数精度不高的问题㊂在实际应用时,可通过增加和调整特征变量(预报因子)进行建模,以达到更佳效果㊂由于通常需要利用多种水文变量进行建模预报,后续将研究多变量相空间重构法,对多种水文变量(比如增加降雨㊁前期影响雨量㊁蒸散发等)进行相空间重构,最大程度提取水文变量蕴含的复杂信息,以进一步提高模型的预测能力㊂参考文献:[1]雍斌,张建云,王国庆.黄河源区水文预报的关键科学问题[J].水科学进展,2023,34(2):159-171.(YONG B, ZHANG J Y,WANG G Q.Key scientific issues of hydrological forecast in the headwater area of Yellow River[J].Advances in Water Science,2023,34(2):159-171.(in Chinese))[2]杨宇涵,殷杰,王丹丹,等.基于ABM的城市暴雨洪涝灾害应急疏散仿真研究:以河南郑州 7㊃20 特大暴雨洪涝灾害为例[J].中国科学:地球科学,2023,53(2):267-276.(YANG Y H,YIN J,WANG D D,et al.ABM-based emergency evacuation modelling during urban pluvial floods:a 7㊃20 pluvial flood event study in Zhengzhou,Henan Province[J].Scientia Sinica Terrae,2023,53(2):267-276.(in Chinese))[3]雷晓辉,王浩,廖卫红,等.变化环境下气象水文预报研究进展[J].水利学报,2018,49(1):9-18.(LEI X H, WANG H,LIAO W H,et al.Advances in hydro-meteorological forecast under changing environment[J].Journal of Hydraulic Engineering,2018,49(1):9-18.(in Chinese))[4]HAM Y G,KIM J H,LUO J J.Deep learning for multi-year ENSO forecasts[J].Nature,2019,573(7775):568-572.[5]RAVURI S,LENC K,WILLSON M,et al.Skillful precipitation nowcasting using deep generative models of radar[EB/OL]. 2021:arXiv:2104.00954.https:ʊ/abs/2104.00954.[6]李大洋,姚轶,梁忠民,等.基于变分贝叶斯深度学习的水文概率预报方法[J].水科学进展,2023,34(1):33-41. (LI D Y,YAO Y,LIANG Z M,et al.Hydrologic probabilistic prediction method based on variational Bayes deep learning[J]. Advances in Water Science,2023,34(1):33-41.(in Chinese))[7]SKOULIKARIS C,ANAGNOSTOPOULOU C,LAZOGLOU G.Hydrological modeling response to climate model spatial analysis ofa south eastern Europe international basin[J].Climate,2019,8(1):1-17.[8]TAKENS F.Detecting strange attractors in turbulence[J].Lecture Notes in Mathematics,1981,898:366-381.[9]李禄德,崔东文.基于小波包分解与相空间重构的SSA-ELM水文时间序列预报模型[J].人民珠江,2022,43(8):100-108.(LI L D,CUI D W.SSA-ELM hydrological time series forecast model based on wavelet packet decomposition and phase space reconstruction[J].Pearl River,2022,43(8):100-108.(in Chinese))[10]NEPOMUCENO E G,MARTINS S A M,LACERDA M J,et al.On the use of interval extensions to estimate the largest Lya-punov exponent from chaotic data[J].Mathematical Problems in Engineering,2018,2018:1-8.[11]王欣然,冯磊华,杨锋,等.基于PSR-LSTM的机组负荷短期预测研究[J].热能动力工程,2021,36(5):66-72.(WANG X R,FENG L H,YANG F,et al.Study on short-term load forecasting of units based on PSR-LSTM[J].Journal of Engineering for Thermal Energy and Power,2021,36(5):66-72.(in Chinese))[12]李步,田富强,李钰坤,等.融合气象要素时空特征的深度学习水文模型[J].水科学进展,2022,33(6):904-913.(LI B,TIAN F Q,LI Y K,et al.Development of a spatiotemporal deep-learning-based hydrological model[J].Advances in Water Science,2022,33(6):904-913.(in Chinese))[13]BULUT M.Hydroelectric generation forecasting with long short term memory(LSTM)based deep learning model for turkey[EB/OL].2021:arXiv:2109.09013.https:ʊ/abs/2109.09013.[14]水文情报预报规范:GB/T22482 2008[S].北京:中国标准出版社,2009.(Standard for hydrological information and㊀第3期师鹏飞,等:融合相空间重构和深度学习的径流模拟预测397㊀hydrological forecasting:GB/T22482 2008[S].Beijing:Standards Press of China,2009.(in Chinese)) [15]ZHANG Y Q,VINEY N,FROST A,et al.Collation of Australian modellerᶄs streamflow dataset for780unregulated Australiancatchments[R].ACT:CSIRO,2013:115.[16]KIM H S,EYKHOLT R,SALAS J.Nonlinear dynamics,delay times,and embedding windows[J].Physica D:NonlinearPhenomena,1999,127(1/2):48-60.Simulation and prediction of streamflow based on phase spacereconstruction and deep learning algorithm∗SHI Pengfei1,2,ZHAO Youjian1,XU Huirong3,LI Zhenya4,YANG Tao1,2,FENG Zhongkai1,5(1.The National Key Laboratory of Water Disaster Prevention,Hohai University,Nanjing210098,China;2.Yangtze Institute for Conservation and Development,Nanjing210098,China;3.Provincial Design Institute ofWater Conservancy and Electric Power,Guangzhou510000,China;4.Key Laboratory of Watershed GeographicSciences,Nanjing Institute of Geography and Limnology,Chinese Academy of Sciences,Nanjing210008,China;5.College of Hydrology and Water Resources,Hohai University,Nanjing210098,China)Abstract:Developing low data-dependent,efficient,practical and accurate modeling techniques can provide effec-tive solutions for hydrological simulation and prediction in areas with limited data availability.From a data-driven per-spective,a composite streamflow prediction model,PSR-LSTM,which integrates Phase Space Reconstruction (PSR)and Long Short-Term Memory(LSTM)networks,was proposed in this study and validated globally over ten river basins(stations)in different climate zones.The results indicate that the PSR-LSTM can effectively extract multi-dimensional sub-space hydrological features and accurately predict streamflow changes at different time scales. Compared to LSTM,the Nash efficiency coefficient of PSR-LSTM in predictions of future1to9timesteps is increased by an average of1.49%to9.77%over the ten river basins;the root mean square error is reduced by an average of 17.01%to19.72%.The dependency on the amount of training data is reduced by25%to33%for PSR-LSTM compared to LSTM.The research findings obtained in this study provide insights into hydrological simulation and pre-diction in data-scarce river basins.Key words:streamflow prediction;data-driven;artificial intelligence;Phase Space Reconstruction(PSR);Long Short-Term Memory(LSTM)networks∗The study is financially supported by the National Natural Science Foundation of China(No.52279009)and the Fundamental Re-search Funds for the Central Universities,China(No.B220201010).。
基于相空间重构和高斯过程回归的短期负荷预测顾熹;廖志伟【摘要】According to the chaotic features of load series,a new forecasting method combining phase space reconstruction and Gaussian process regression is proposed.Firstly,two parameters of time series (delay time and delay window) are earned at the same time by means of the C-C method.Secondly,the reconstructed series of the separate load as well as the multi-variable model considering load and other influence factors are established.Then,the load sample is trained by GPR models using both single and composite kernel function and the optimal hyper-parameters are calculated,with which the 24-hour daily loads are predicted.Finally,the forecasting consequence of the single load model is contrasted with SVM model and the multi-variable GP model.Prediction results indicate that the model using multi-variable and composite kernel function achieves better effects and the new method is not only feasible but also satisfies the requirements of the engineering precision.%基于负荷时间序列的混沌特性,提出了一种结合相空间重构(PSR)和高斯过程回归(GPR)的短期负荷预测方法.首先采用C-C方法确定时间序列的延迟时间和嵌入维度,分别建立单变量和多变量的相空间重构模型.然后,分别运用单一与组合核函数的GP模型对负荷样本进行训练,根据最优超参数对24 h的日负荷进行预测.最后将预测结果与支持向量机模型以及多变量GP模型进行比较.结果显示,多变量组合核函数GP模型取得了更好的预测结果,验证了所提出的基于PSR和GPR的预测方法的可行性.【期刊名称】《电力系统保护与控制》【年(卷),期】2017(045)005【总页数】7页(P73-79)【关键词】相空间重构;高斯过程回归;C-C方法;短期负荷预测;组合核函数【作者】顾熹;廖志伟【作者单位】华南理工大学电力学院,广州广东510640;华南理工大学电力学院,广州广东510640【正文语种】中文电力系统短期负荷是一个受多种外在因素(如气象、社会经济、节假日等)影响的多维非线性系统。
School% 此程序用来测试CC_method% 2008-12-01% zhangliclear allclear all%利用方程获得% 产生Lorenz 时间序列% dx/dt = sigma*(y-x)% dy/dt = r*x - y - x*z% dz/dt = -b*z + x*ysigma=16; % Lorenz 方程参数b=4;r=45.92;y=[-1,0,1]; % 起始点(1 x 3 的行向量)h=0.01; % 积分时间步长k1=10000; % 前面的迭代点数k2=3000; % 后面的迭代点数Z=LorenzData(y,h,k1+k2,sigma,r,b);X=Z(k1+1:end,1);max_d=200; % 最大延迟时间% 调用C_CMethod_inf,求tautic[Smean_inf,Sdeltmean_inf,Scor_inf,tau_inf,tw_inf]=C_CMethod_inf(X,max_d); toc tau_inftw_inf% 相关作图figure('name','CC法求时间延迟');plot(1:max_d,Smean_inf,'-b');hold on;plot(1:max_d,Sdeltmean_inf,'-*c');hold on;plot(1:max_d,Scor_inf,'-m');hold on;plot(1:max_d,zeros(1,max_d),'r');title('C_CMethod_inf');xlabel('Lag');legend('S(t)平均值','ΔS(t)平均值','Scor_inf');% 将数据保持下来fid=fopen('Smean_inf.txt','w');fprintf(fid,'%f\n',Smean_inf);fclose(fid);fid=fopen('Sdeltmean_inf.txt','w');fprintf(fid,'%f\n',Sdeltmean_inf);fclose(fid);fid=fopen('Scor_inf.txt','w');fprintf(fid,'%f\n',Scor_inf);fclose(fid);2.子函数1function [Smean,Sdeltmean,Scor,tau,tw]=C_CMethod_inf(X,max_d)% 用于求延迟时间tau% X为输入时间序列% max_d为最大时间延迟% Smean,Sdeltmean,Scor为返回值% tau为计算得到的延迟时间% tw为时间窗口% zhangli% 2008-11-30N=length(X);Smean=zeros(1,max_d);Scmean=zeros(1,max_d);Scor=zeros(1,max_d);delt=std(X);% 计算Smean,Sdeltmean,Scorfor t=1:max_dS=zeros(4,4);Sdelt=zeros(1,4);for m=2:5for j=1:4r=delt*j/2;Xdt=disjoint(X,N,t); % 将时间序列X分解成t个不相交的时间序列Xdt=Xdt';s=0;for tau=1:tN_t=floor(N/t); % 分成的子序列长度Y=Xdt(:,tau); % 每个子序列Cs1(tau)=correlation_integral_inf(Y,N_t,r);% 计算C(1,N/t,r,t) Z=reconstitution(Y,N_t,m,1); % 相空间重构Z=Z';M=N_t-(m-1);Cs(tau)=correlation_integral_inf(Z,M,r); % 计算C(m,N/t,r,t)s=s+(Cs(tau)-Cs1(tau)^m); % 对t个不相关的时间序列求和endS(m-1,j)=s/tau;endSdelt(m-1)=max(S(m-1,:))-min(S(m-1,:)); % 差量计算endSmean(t)=mean(mean(S)); % 计算平均值Sdeltmean(t)=mean(Sdelt); % 计算平均值Scor(t)=abs(Smean(t))+Sdeltmean(t);end% 寻找时间延迟tau:即Sdeltmean第一个极小值点对应的tfor i=2:length(Sdeltmean)-1if Sdeltmean(i)<Sdeltmean(i-1)&Sdeltmean(i)<Sdeltmean(i+1) tau=i;break;endend% 寻找时间窗口tw:即Scor最小值对应的tfor i=1:length(Scor)if Scor(i)==min(Scor)tw=i;break;endend3.子函数2function data_d=disjoint(data,N,t)% 此函数用于将时间序列分解成t个不相交的时间序列% data:输入时间序列% N:data的长度% t:the index lag% data_d:返回分解后的t个不相交的时间序列% 2008-11-28% zhanglifor i=1:tfor j=1:(N/t)data_d(i,j)=data(i+(j-1)*t);endend4.子函数3function Data=reconstitution(data,N,m,tau)% 该函数用来重构相空间% data为输入时间序列% N为时间序列长度% m为嵌入空间维数% tau为时间延迟% Y为输出,是M*m维矩阵% 2008-11-26% zhangliM=N-(m-1)*tau;Data=zeros(m,M);for i=1:mData(i,:)=data([((i-1)*tau+1):1:((i-1)*tau+M)]);end5.子函数4function C=correlation_integral_inf(Y,M,r)% 此函数用于计算关联积分,取无穷范数% Y为重构的相空间% M为相空间中点的个数% r为搜索半径% Y为输出,是M*m维矩阵% 2008-11-30% zhangliC=0;for i=1:M-1for j=i+1:Md1=norm((Y(i,:)-Y(j,:)),inf); % 计算状态空间中每两点之间的距离,取无穷范数if r-d1>=0 C=C+1;endendendC=2*C/(M*(M-1));。
基于改进的C-C 方法的相空间重构参数选择*陆振波 蔡志明 姜可宇(海军工程大学电子工程学院, 武汉430033)摘 要:针对混沌时间序列相空间重构C-C 方法的三点不足,提出了一种基于改进的C-C 方法的确定最优时延与嵌入窗的新算法。
在关联积分计算过程中引入了权衡计算精度与速度的可调参数,合理选择该参数,能在不严重损失估计精度的前提下,大大加快计算速度。
在理论分析的基础上,用所提出的算法对三种混沌序列进行相空间重构,仿真结果表明该算法对最优时延的选择更准确,对最优嵌入窗的选取更可靠。
关键词:混沌,时间序列分析,相空间重构,关联积分Determination of embedding parameters for phase spacereconstruction based on improved C-C methodLu Zhen-bo Cai Zhi-ming Jiang Ke-yu(Electronic Engineering College, Navy Engineering University, WuHan 430033, China)Abstract : A new algorithm to determine delay time and embedding window was presented based on the improved C-C method modified the classical C-C method in three aspects. Considering precision and rapidity of computation, an optimal parameter was introduced into the computation of correlation integral. On the foundation of theory study, phase space reconstruction of three kinds of chaotic time series is carried out, and the result of simulations verify that the algorithm is more applicable for determining appropriate delay time and embedding window.Key Words : chaos, time series analysis, phase space reconstruction, correlation integral1 引言近年来,混沌时间序列分析方法在很多科研和工程领域中得到广泛应用。
相空间重构是混沌时间序列分析的基础,Takens [1]等人提出了用延迟坐标法对混沌时间序列},,2,1|{N i x x i ⋅⋅⋅==进行相空间重构},,2,1,],,,,[|{)1(M i x x x X X X T t m i t i i i i ⋅⋅⋅=⋅⋅⋅==−++ (1)其中m 为嵌入维,t 为时延,t m N M )1(−−=为相空间中的点数。
Takens 定理证明了如果嵌入维m ≥12+d ,d 为系统动力学维数,则重构的动力系统与原动力系统在拓扑意义上等价。
Takens 定理 *国家重点实验基金(批准号:514450801JB1101)和 国家重点实验基金(批准号:51444030105JB1101)资助的课题 联系人:E-mail: luzhenbo@在时间序列无限长且无噪声干扰的条件下,提供了嵌入维的选取依据,这时时延t 可取任意值。
然而系统动力学维数d 未知,实际时间序列又是有限长且有噪声干扰的,因此选择合适的时延t 和嵌入维m 是关键。
有关时延t 与嵌入维m 的选取,现在主要有两种观点。
一种观点认为两者是互不相关的,如求时延的自相关法[2]、互信息法[3],求嵌入维的G-P 算法[4]或FNN(flase nearest neighbors)法[5]等。
另一种观点认为两者是相关的,如嵌入窗法[6] 、C-C 方法[7]。
1996年,D.Kugiumtzis 提出了相空间重构的嵌入窗法,指出时延t 的选取不应独立于嵌入维m ,而应依赖于嵌入窗t m w )1(−=τ,并且要求w τ≥p τ,这里p τ为混沌系统的平均轨道周期。
严格来讲混沌系统不存在周期性,然而对于存在伪周期的低维混沌系统来讲,平均轨道周期是指混沌吸引子在永不重合而又彼此相似的相空间轨道上振荡的平均周期。
1999年,H.S.Kim 等人基于嵌入窗法的思想提出了C-C 方法,该方法使用关联积分同时估计出时延与嵌入窗。
本文针对混沌时间序列相空间重构C-C 方法的三点不足,提出了一种基于改进的C-C 方法的确定最优时延与嵌入窗的新算法,该算法对最优时延的选择更准确,对最优嵌入窗选取更可靠。
在关联积分计算过程中引入了权衡计算精度与速度的可调参数,合理选择该参数,能在不严重损失估计精度的前提下,大大加快计算速度。
2 C-C 方法[7]考虑混沌时间序列},,2,1|{N i x x i ⋅⋅⋅==,以时延t ,嵌入维m ,重构相空间}{i X X =,i X 为相空间中的点,则嵌入时间序列的关联积分为∑≤<≤>−−=Mj i ij r d r M M t r N m C 10),()1(2),,,(θ (2) 其中 )(∞−=j i ij X X d0 ,1)( ;0 ,0)(≥=<=x x x x 若 若θθ关联积分是个累积分布函数,表示相空间中任意两点之间距离小于r 的概率。
这里点与点之间的距离用矢量之差的无穷范数表示。
定义检验统计量),,,1(),,,(),,,(1t r N C t r N m C t r N m S m −= (3)实际(3)式的计算过程为:将时间序列},,2,1|{N i x x i ⋅⋅⋅==分解成t 个互不重迭的子序列,t 为重构时延,即}, ,2 ,|{}2, ,2 ,2|{}1, ,1 ,1|{21N t t i x x t N t i x x t N t i x x i t i i ⋅⋅⋅==⋅⋅⋅⋅⋅⋅⋅⋅⋅+−⋅⋅⋅+==+−⋅⋅⋅+== (4)这里N 为t 的整数倍。
计算(3)式定义的统计量采用分块平均的策略,即 ∑=−=ts m s s t r t N C t r t N m C t t r N m S 12)],,,1(),,,([1),,,( (5) 令∞→N 有∑=−=ts m s s t r C t r m C t t r m S 12)],,1(),,([1),,( (6) 如果时间序列}{i x x =独立同分布,那么对固定的t m ,,当∞→N 时,对于所有的r ,均有),,(2t r m S 恒等于零。
但实际时间序列是有限长且元素间存在相关性,实际得到的),,(2t r m S 一般不等于零。
),,(2t r m S ~t 反映了时间序列的自相关特性,仿照求时延的自相关法原理,最优时延d τ可取),,(2t r m S ~t 的第一个零点。
或者取),,(2t r m S ~t 对所有半径r 相互差别最小的时间点,此时表示重构相空间中的点最接近均匀分布,重构吸引子轨道在相空间完全展开。
选择最大和最小的两个半径r ,定义差量)},,(min{)},,(max{),(222t r m S t r m S t m S j j −=∆ (7)),(2t m S ∆度量了),,(2t r m S ~t 对所有半径r 的最大偏差。
综上,最优时延d τ可取),,(2t r m S ~t 的第一个零点或),(2t m S ∆~t 的第一个局部极小点。
根据BDS 统计结论可以得到N 和r m ,的合理估计,这里取3000=N ,5,4,3,2=m ,σ5.0×=i r i ,)(x std =σ(σ为时间序列的标准差),4,3,2,1=i 。
计算∑∑===52m 4122),,(161)(i i t r m S t S (8) ∑=∆=∆52m 22),(41)(t m S t S (9) 寻找)(2t S 的第一个零点或)(2t S ∆的第一个局部极小点即为最优时延d τ。
另外,由于统计量计算式(5)采用分块平均的策略,对于周期为T 的时间序列,当kT t =时(k 为大于零的整数),)(2t S 与)(2t S ∆均为零。
综合考虑)(2t S 和)(2t S ∆,定义指标)()()(222t S t S t S cor +∆= (10)寻找)(2t S cor 的全局最小点即可获得嵌入窗w τ,即平均轨道周期的最优估计。
3 改进的C-C 方法C-C 方法的基本策略是:先定义关联积分,再构造统计量),,,(1t r N m S ,依据BDS 统计结论确定r N m ,,的合适取值范围,实际计算中利用),,,(2t r N m S ~t 的统计结论,实现最优时延d τ与嵌入窗w τ的估计。
深入分析,C-C 方法存在三点不足。
第一,实际中)(2t 的第一个零点并不等于)(2t S ∆的第一个局部极小点。
而且对于周期为T 的时间序列,kT t =(k 为大于零的整数)是)(2t S 的零点,该零点很有可能既是)(2t S 的第一个零点,又是)(2t S cor 的全局最小点,从而得到相互矛盾的结论。
因此本文认为,将)(2t S 的第一个零点视为最优时延d τ是不合适的,只需考虑)(2t S ∆的第一个局部极小点作为最优时延d τ。
第二,统计量计算式(5)采用分块平均的策略,当kT t =时(k 为大于零的整数))(2t S ∆等于零,而且)(2t S ∆出现随t 增大而不断增长的高频起伏,当最优时延d τ值较大时,这种高频起伏甚至影响到)(2t S ∆的第一个局部极小点的选择。
第三,理想情况下)(2t S cor 的全局最小点即是最优嵌入窗w τ,实际中)(2t S cor 存在若干个局部极小点与全局最小点在数值上相当接近,干扰了全局最小点的判读;甚至最优嵌入窗w τ所对应的t 不是全局最小点,最终导致最优嵌入窗w τ的错误估计。
基于以上C-C 方法的不足,本文提出了改进的C-C 方法的相空间重构参数选择。
这里进一步比较),,,(1t r N m S 与),,,(2t r N m S 。
在(5)式中当固定r m ,,∞→N 时,),,,(2t r N m S 出现随t 增大而不断增长的高频起伏;而(3)式中在相同前提下,),,,(1t r N m S ~t 总体上与),,,(2t r N m S ~t 具有相同的起伏规律,但去除了),,,(2t r N m S 中的高频起伏。