风速数据奇异点辨识研究
- 格式:pdf
- 大小:970.18 KB
- 文档页数:6
风速时程的分形特征研究风是一种重要的气象要素,对我们的生活和社会经济具有重要影响。
因此,研究风速时程的分形特征对于了解风的变化规律以及风能的开发利用具有重要意义。
本文将探讨风速时程的分形特征研究。
首先,我们需要了解分形特征。
分形是一种几何形态的特性,具有自相似性和尺度不变性。
在自然界的很多系统中,都存在分形特征。
例如,树枝、山脉、河流等都具有分形结构。
分形特征的研究可以帮助我们理解和描述这些复杂的系统。
风速时程的分形维数研究主要是通过分析风速数据的变化规律来确定风速时程的分形维数。
分形维数是描述分形结构复杂程度的一个参数,可以用来评估系统的不规则程度。
通过计算风速时程的分形维数,可以揭示风速时程的复杂性和非线性特征。
分形维数的计算可以使用常见的分形计算方法,如盒计数法和哈斯托尔分形维数法等。
通过分析分形维数与其他气象要素的关系,可以对风速时程的形成机制进行深入研究。
风速时程的分形特征与风能预测的关系研究是另一个重要的研究方向。
风能资源的评估和风能预测是风电开发的重要环节,对于风电场的规划和运行具有关键意义。
风速时程的分形特征可以用来改进风能预测模型,并提高预测的准确性。
研究人员通过对风速时程的分形特征进行分析,发现分形特征与风能的区域分布和时空变化有一定的关系。
因此,可以通过建立基于分形特征的风能预测模型来改进风能预测的精度。
风速时程的分形特征研究在工程应用方面具有重要意义。
通过对风速时程的分形特征进行分析,可以了解风速的变化规律,为风电场的设计和运行提供科学依据。
此外,还可以提高风能预测模型的准确性,为风电场的经济运行提供支持。
同时,风速时程的分形特征研究还可以为其他领域的复杂系统研究提供借鉴和启示。
总之,风速时程的分形特征研究对于了解风的变化规律、改进风能预测模型以及风电场的设计和运行具有重要意义。
通过分析风速时程的分形维数和分形特征与其他气象要素的关系,可以揭示出风速时程的复杂性和非线性特征。
基于奇异值分解降噪方法的大型风机故障诊断研究刘佳音;于晓光;金鹏飞;李宏坤【摘要】利用奇异值分解降噪方法对大型风机异常振动信号进行降噪处理,并应用MATLAB软件实现.首先将含噪的测量信号构成的矩阵分解成有用信号空间与噪声空间,采用三种不同的奇异值阈值选取方法,即奇异值差分谱方法、特征均值方法以及奇异值中值方法,对两个空间的奇异值矩阵处理后,再重构信号,实现测量信号的降噪,从而凸显故障的信息特征.利用计算数据和图像说明不同奇异值阈值选取方法的降噪效果,得出奇异值中值方法对大型风机异常振动信号降噪效果最佳.在此基础上对信号进行频谱分析,可以实现对大型风机故障的高效准确诊断.【期刊名称】《辽宁科技大学学报》【年(卷),期】2016(039)004【总页数】8页(P284-291)【关键词】大型风机;奇异值分解;奇异值阈值;降噪;故障诊断【作者】刘佳音;于晓光;金鹏飞;李宏坤【作者单位】辽宁科技大学机械工程与自动化学院,辽宁鞍山 114051;辽宁科技大学机械工程与自动化学院,辽宁鞍山 114051;辽宁科技大学机械工程与自动化学院,辽宁鞍山 114051;大连理工大学机械工程学院,辽宁大连 116024【正文语种】中文【中图分类】TH165大型风机是广泛应用于石油、化工、电力等行业的一种旋转机械,对国民经济的发展具有非常重要的意义。
在大型风机的各种故障中,常见的故障类型有不平衡故障、不对中故障以及机械松动故障等。
一旦大型风机出现故障,将会造成较为严重的经济损失。
在某些情况下,还会导致环境污染、损害人身安全等严重后果。
因此对大型风机异常振动信号的研究具有重要意义[1]。
通常大型风机振动非常强烈,现场采集的故障信号中含有较大的噪声,影响大型风机故障诊断的准确性,所以有必要对其进行降噪处理,让故障特征信号凸显出来。
因此如何降低振动信号中的噪声干扰,提取信号的故障特征,是实现风机故障诊断必须解决的关键问题。
一种风电场风速异常数据预处理的新方法陈伟; 王敏; 裴喜平【期刊名称】《《兰州理工大学学报》》【年(卷),期】2019(045)005【总页数】6页(P91-96)【关键词】异常数据识别; 时间序列; 小波分解; 隐马尔科夫模型【作者】陈伟; 王敏; 裴喜平【作者单位】兰州理工大学电气工程与信息工程学院甘肃兰州730050【正文语种】中文【中图分类】TM614由于风电自身的间歇性、随机性、波动性等特征,准确有效地分析风电场相关运行数据对评估风电场性能和运行状况、风电风速和功率预测以及电力调度部门对调度计划的制定具有重要意义.风电场风速和功率预测的准确性由多种因素决定,其中运行数据的真实性、可靠性对预测方法的实际应用效果影响很大.在实际运行过程中,由于弃风限电、传感器故障、表计误差及风机叶片受到污垢和冰等环境因素的影响,风电场采集到的风速数据中,异常数据很难避免,若将其直接作为风电预测模型的原始输入数据和风电对系统影响的基础数据,则会影响预测的准确性和分析结果的可靠性.因此,有必要对风电场采集的风速数据进行有效识别检测,从而剔除异常数据,并对剔除异常数据后的数据还原重构,从而为风电场功率预测提供有效的数据来源.目前,针对异常数据的识别,赵永宁等[1]提出了一种基于四分位法和聚类分析的异常数据识别算法,剔除因弃风造成的离群数据点和堆积型数据簇,该方法在数据识别时易将正常数据误删.苏卫星等[2]采用自回归(auto regression,AR)模型拟合实测数据并计算出检测窗口数据的残差,借助边缘后验比识别异常数据,但参数的敏感性因素会导致误检率增大.刘芳等[3]采用AR-Wavelt的方法计算出残差序列,利用隐马尔科夫自适应方法设定阈值,可在线检测异常数据,该方法不适用于非平稳的风速序列.颜永龙等[4]通过建立反向传播神经网络(back-propagation neural network,BPNN)和最小二乘支持向量机(least square support vector machine,LSSVM)组合预测模型计算残差序列并引入信息熵的方法确定异常值,由于风速信号自身特征使得该方法建模复杂、计算量大,且异常数据比例高时,模型预测精度较低.李丽等[5]基于小波模极大值的方法对异常风速点进行识别,采用阈值和Lipschitz指数联合判定异常风速值.但该方法需事先设定检测阈值,因固定阈值检测方法的自适应能力差造成辨识精度低.本文提出了差分自回归滑动平均、小波分解和隐马尔科夫组合模型的异常风速数据识别方法,该方法首先利用差分自回归滑动平均模型获得预测值,从而得到表征风速序列异常特征的残差序列;然后运用小波分解提取残差序列中的高频粗大误差特征信息,进而降低系统误差的干扰;为了避免事先设定检测阈值以及更准确地检测异常风速值,引入隐马尔科夫模型分析小波分解的高频分量准确定位异常值;最后采用粒子群优化的最小二乘支持向量机修正异常风速值.对来自酒泉风电场的数据进行预处理,径向基函数(radial basis function,RBF)神经网络预测结果验证了经过处理后风速数据得到了优化,该方法能够准确有效地识别出异常风速数据.1 风速时间序列模型风速时间序列具有较强的非平稳性、非线性和随机性,鉴于ARIMA技术在非平稳数据处理中的突出优势,对风电场数据采集与监控(SCADA)系统收集到的数据进行分析处理,由ARIMA模型得到预测值,通过计算预测值和测量值之间的差值获得残差序列,外界电磁干扰和传感器故障等原因产生的异常风速数据特征在残差序列中得以表征.残差序列中的粗大误差和系统误差不同,通常不服从正态分布,且具有随机性和幅值波动大的特点,因此可以通过对残差序列的分析来确定数据的异常情况.1.1 差分自回归滑动平均模型时间序列模型根据风速-时间序列自身特点,将获取的众多历史风速数据构建相应的模型,反映统计学中的风速变化规律,依据模型建立相应的数学表达式,从而进行风速预测.Box等[6]提出用ARIMA模型对时间序列的相关问题预测、控制.目前,ARIMA模型已在电力负荷、气象参数、经济指标预测等方面广泛应用. ARIMA(n,d,m)中,n和m都是非负整数,n表示自回归项的阶次,m表示滑动平均项的阶次,参数d为差分运算的阶次.本文中d取2[7] ,通过ARIMA模型将非平稳的风速时间序列进行d阶差分,从而获得平稳序列,即可构建相应的自回归滑动平均(auto regressive moving average,ARMA)模型.对一个非平稳风速-时间序列{xt}进行2阶差分的公式如下:2xt=(1-B)2xt(1)式中:B为延迟算子;=1-B为有序差分算子.1.2 模型的定阶ARMA(n,m)模型数学公式表示为(2)式中:为t时刻的预测值;λ1,λ2,…,λn表示AR模型的系数;θ1,θ2,…,θm表示MA 模型的系数;εt为正态白噪声(系统误差)序列,是独立同分布的随机变量,为AR模型的阶数;m为MA模型的阶数.为确定模型的自回归阶次n和滑动平均阶次m,选取AIC准则平衡模型阶次和参数之间的关系.定阶准则函数为AIC=(N-d)lg δ2+2(n+m+1)lg N(3)式中:N为样本数;δ2为拟合残差平方和;n、d、m为模型参数.为使模型的拟合性能达到最优,通常选取AIC准则函数取极小值的一组模型阶次,根据文献[8]的计算方法求取n和m的值.1.3 参数的估计参数λi是由先后估计法得到的修正Yule-Walker方程求出,计算公式如下:(4)(5)式中:Rk为风速-时间序列的自协方差函数;k=0,1,2,…,N-1;Rk具有偶对称性,即R-k=Rk.将式(2)改写为(6)利用之前估计出的参数λi计算得到序列yt,对序列yt采用式(5)求出自协方差函数Ry,k.根据文献[8]推导出计算θj的方程组:(7)式中:θ0=-1;j+k≤m;k=0,1,2,…,m.采用高斯赛德尔迭代法求解式(7)得到的非线性方程组,从而计算出参数θj和的估计值.为保证ARIMA模型预测精度的准确性,只对风速值进行一步预测,通过拟合窗口和预测窗口随时间t向右滑动可得到完整预测的残差序列e(t):(8)由式(8)可知,如果风速值xt为正常数据,则e(t)为系统误差,如果xt为异常数据,则e(t)为系统误差与粗大误差之和.2 风速异常数据的识别2.1 基于小波分解的异常风速特征提取为更好地观察经ARIMA模型处理后的异常风速数据特征,采用小波分解方法处理风速残差序列[9].根据 Mallat 提出的多分辨率思想[10],对信号进行不同分辨率的逐级逼近,用小波函数和尺度函数对信号进行不同尺度的分解,获得不同尺度下的信号特征,最终得到:(9)风速残差序列本身包含着系统误差,利用对残差序列进行小波分解来区别系统误差和粗大误差.在平滑信号中,其包含的高频分量较少,反之粗大误差的高频分量则相对较多.即在小波分解过程中,随着尺度的增加,残差序列中的系统误差对应的幅值相对较小,而异常数据对应的高频细节分量相对较大,这使得粗大误差信息特征体现在最大尺度上的分解系数中,从而避免了噪声和系统误差的干扰,进一步提高检测精度.本文选用具有较好正则性的紧支撑双正交小波db4作为母小波.2.2 HMM识别方法传统的小波异常值识别方法一般都需要事先设定检测阈值,即当检测指标超出检测阈值时判定为异常值.而风速序列存在随机性和间歇性,固定阈值检测方法容易出现漏检现象,难以保证检测结果的准确性.因此本文引入HMM分析小波系数高频细节分量,通过对粗大误差的检测,实现风速异常数据的识别.HMM算法是一个一阶的双重随机过程,它由两部分组成[11].一部分是马尔科夫链,描述了各个状态之间的转移情况,由初始状态概率a0和状态转移矩阵A=(aij)N×N 组成,N为状态量的总个数,aij表示从前一状态i转移到当前状态j的概率值,aij=P(st=j|st-1=i),i,j∈S,S表示所有状态组成的集合,st表示t时刻状态.在识别异常值过程中,由于只有正常“1”和异常“0”两种状态即S={0,1},则状态转移矩阵可表示为A=(aij)2×2.这里需要事先设定初始状态转移概率a0,随着状态转移矩阵A的不断更新,使得统计数据更贴近样本风速数据的真实情况,因此a0的取值对异常值识别的准确性影响将会不断减小直至消失.状态转移矩阵A中的各个元素计算公式如下:(10)式中:aij表示前一时刻为状态i而后一时刻为状态j的概率;n(aij)表示从状态i到j 的转移次数.在更新过程中矩阵A采用先计算后更新的方式,因此只需统计当前t时刻之前转移次数.HMM的另一部分描述的是状态情况和观测值之间的相互关系,观测值概率矩阵P=(ptk)1×2,k=0,1,表示在t时刻观测值取0或1的概率.这里观测值概率pt1表示t时刻小波系数W(t,f)与正常数据(k=1)小波系数平均值Wa之间的相似度:(11)式中:N(·|·)表示高斯分布函数;Wv表示正常小波系数方差.ARIMA预测得到的正常风速残差序列是由白噪声构成,因此Wa取均值0.2.3 Viterbi检测准则采用Viterbi算法[12]求取数据的异常情况检验结果,计算办法如下:φt(1)=ai1Pt1φt(0)=ai0pt0=ai0(1-pt1)(12)式中:φt(1),φt(0)分别为st=1(正常风速数据)和st=0(异常风速数据)的判定指标.将t时刻φt(1)和φt(0)值的大小进行比较,判断HMM的状态链值即风速数据的异常情况,当φt(1)≥φt(0),st=1时,风速数据正常;当φt(1)<φt(0),st=0时,风速数据异常.3 异常风速数据的重构方法经过ARIMA-WD-HMM组合模型实现了异常风速数据识别过程,在剔除异常值后会造成风速序列缺失,为保证风速序列的完整性和有效性,本文将剔除异常风速值后的风速数据作为基于粒子群优化最小二乘支持向量机(particle swarm optimization-least squares support vector machine,PSO-LSSVM)模型的模拟样本,重构所剔除的异常风速数据.LSSVM目标函数为(13)式中:ω为权向量;θ为误差;γ为正则化参数.选取径向基核函数作为 LSSVM的核函数.径向基核函数作为一种对应于非线性映射的核函数,能够处理非线性输入与输出问题:(14)式中:α为Lagrange乘子.采用粒子群优化径向基核函数的参数,为避免PSO收敛陷入局部极值,利用平均粒距函数D(t)对初始粒子群选取时的离散程度进行测定[13].对于PSO粒子是否出现早熟收敛的判定,可根据种群粒子适应值的改变来分析种群状态[14].依据适应度方差σ2的大小可表征粒子聚集水平,当σ2<h(h为给定阈值),则可判定其已进入后期搜算阶段,易出现早熟收敛,需重新分配粒子空间,促使粒子摆脱局部极值并提高收敛速率.选取参数优化后的LSSVM模型,将识别出的原风速序列中异常数据点处置为零,形成新的风速序列.根据径向基核函数对新序列进行PSO-LSSVM模型样本训练,进而根据拟合结果对风速异常数据进行重构恢复.4 仿真实验4.1 异常检测与分析本文选用酒泉风电场的实测风速为原始数据,该数据的采样间隔为1 min,共取其中3 000个风速样本进行预处理.结合对ARIMA-WD-HMM组合算法原理的分析,可以给出基于异常数据检测步骤如下:1) 输入风电场运行风速数据.2) 建立ARIMA预测模型.先对风速样本进行2阶差分使其平稳化,然后估计出AR 模型的参数φi和MA模型的参数θj,最后预测当前t时刻的风速值3) 通过拟合窗口和预测窗口的右移计算出残差序列e(t).4) 对e(t)进行小波分解,获取含有大量粗大误差信息的高频细节分量.5) 对含粗大误差信息的高频细节分量进行HMM检测.先由式(11)计算观测概率矩阵P,然后利用式(12)对t时刻的异常状态判断,如果异常S(t)=0,如果正常S(t)=1,最后根据已知的状态S更新状态转移矩阵A.6) 剔除状态s(t)=0的点,并利用PSO-LSSVM算法进行风速序列重构.由上面步骤得到的计算流程图如图1所示.图1 异常风速数据识别流程图Fig.1 Flowchart of abnormal wind speed dataidentification首先运用ARIMA模型进行风速预测,风速信号具有随机性且非平稳,对原始风速序列进行2阶差分,使其平稳化.差分后得到ARMA模型,在建立其数学模型的时候,首先设定好ARMA模型阶次的上限,对m=0,1,2,…,n=0,1,2,…多组阶数进行参数估计和模型检验.风速预测结果如图2所示,原始风速序列模型确定为ARIMA(5,2,4). 图2 ARIMA模型风速预测结果Fig.2 Wind speed forecast result with ARIMA model对预测窗口t时刻的预测值与实际值xt作差,得到t时刻含异常特征信息的残差序列et.通过两个窗口随着时间的滑动计算出3 000个风速样本的残差序列e(t),在图3所示的风速残差序列中,将图2原始风速序列无法直观观察的异常数据特征突显出来,其原因在于当测量值xt异常时,残差值中含有粗大误差,波动幅度较大;当测量值xt正常时,残差值仅为系统误差且服从正态分布.图3 风速残差序列Fig.3 Residual error sequence of wind speed为了进一步提取异常信息特征,对图3所示的残差序列采用db4小波分解方法进行三层尺度分解,降低噪声干扰,提高检测精度.分解结果如图4所示.其中:a3为该序列的低频部分,保持了原残差序列的曲线形状;d1、d2、d3为序列在各尺度的高频部分,d3小波分量主要包含有粗大误差分量的异常数据特征.经小波分解的各分量,不仅信息更加集中,而且能保持各时段的局部信息.图4 残差序列三层小波分解Fig.4 Three-layering wavelet decomposition of residual sequence为避免事先设定检测阈值以及更准确地对异常数据进行识别,采用隐马尔科夫模型分析小波系数的差异.根据Viterbi异常值判别准则,s(t)=1时表示t时刻风速数据正常,当s(t)=0时表示t时刻风速数据异常.由图5可以看出,HMM检测算法能很好地描述数据的异常情况,没有明显的误检现象,相比传统方法提高了准确性及检测精度.图5 检测结果Fig.5 Test result根据HMM检测结果剔除状态参量s(t)=0的异常风速数据,并采用粒子群优化的最小二乘支持向量机重构得到完整的风速序列.4.2 误差分析在风速预测结果的误差分析中,本文选用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和均方根误差(RMSE)作为预处理效果的评价指标.平均绝对误差:(15)平均绝对百分比误差:(16)均方根误差:(17)与真实的风速值相比较,利用不经处理的原始运行数据和经过本文异常数据识别后的运行数据依次建立RBF风速预测模型,分析预测结果来确定检测算法的可行性.RBF预测结果见表1.表1 酒泉风电场预测误差分析Tab.1 Prediction error analysis at Jiuquan wind farm数据类型MAEMAPERMSE未处理的风速数据1.14915.32/%1.462本文方法预处理后0.86212.03/%1.154通过对比发现,风速序列经预处理后预测精度得到了很大提升,从而说明本文提出的方法可提高风速数据质量,具有较好的异常风速数据识别能力,为后续的数据研究提供了可靠保障.5 结论由于风速信号本身的随机性和不确定性,导致淹没在风速序列中的异常风速数据不易被识别出来,本文采用ARIMA-WD-HMM异常数据识别方法能准确判断风速序列中的异常数据及发生时刻,并通过重构来提高风速序列的完整性和有效性,最终获得高质量的风速数据.该方法为风电功率预测、电力调度部门对调度计划的制订提供了有效的数据来源,具有一定的工程实用性和良好的应用前景.参考文献:【相关文献】[1] 赵永宁,叶林,朱倩雯.风电场弃风异常数据簇的特征及处理方法 [J].电力系统自动化,2014(21):39-46.[2] 苏卫星,朱云龙,胡琨元,等.基于模型的过程工业时间序列异常值检测方法 [J].仪器仪表学报,2012,33(9):2080-2087.[3] 刘芳,毛志忠.过程控制时间序列中异常值的动态检测 [J].控制理论与应用,2012,29(4):424-432.[4] 颜永龙,李剑,李辉,等.采用信息熵和组合模型的风电机组异常检测方法 [J].电网技术,2015,39(3):737-743.[5] 李丽,叶林.风速数据奇异点辨识研究 [J].电力系统保护与控制,2011,39(21):92-97.[6] BOX G E P,JENKINS G M,REINSEL G C.时间序列分析:预测与控制 [M].顾岚译.3版.北京:中国统计出版社,1997.[7] 张善文.Matlab在时间序列分析中的应用 [M].西安:西安电子科技大学出版社,2007.[8] 孟天星,张厚升.基于差分自回归滑动平均模型的风电场短期风速预测 [J].科学技术与工程,2013,33(13):9813-9818.[9] 田中大,李树江,王艳红,等.基于小波变换的风电场短期风速组合预测 [J].电工技术学报,2015,30(9):112-120.[10] 曾杰,张华.基于蚁群优化的最小二乘支持向量机风速预测模型研究 [J].太阳能学报,2011,32(3):296-300.[11] BILMES J A.What HMMs can do [J].IEICE- Transactions on Information and Systems,2006,E89-D(3):869-891.[12] LOU H L.Implementing the Viterbi algorithm- fundamentals and real time issues for processor designers [J].IEEE Signal Processing Magazine,1995,12(5):42-52.[13] GORJAEI R G,SONGOLZADEH R,TORKAMAN M,et al.A novel PSO-LSSVM model for predicting liquid rate of two phase flow through wellhead chokes [J].Journal of Natural Gas Science and Engineering,2015,24:228-237.[14] YANG X,YU F,PEDRYCZ W.Long-term forecasting of time series based on linear fuzzy information granules and fuzzy inference system [J].International Journal of Approximate Reasoning,2017,81:1-27.。
浅谈如何提高风电场风功率预测准确率摘要:指出了风功率预测的研究对保证电力系统安全、经济运行以及提高电能质量有着重要意义。
探讨了当前风功率预测的主要方法,论述了风功率预测中的关键技术步骤,对短期风功率预测及实时功能率预测的发展趋势进行了展望。
关键词:功率预测;风力发电;组合预测1引言创造出了可观的经济效益。
然而,风力发电具有间隙性、随机性和波动性的特点,这给整个电力系统的安全、稳定运行带来了挑战,直接影响了风电厂在整个电力行业的竞争力。
因此,加快风功率预测的研究、提高功率预测的精度显得尤为重要。
2风功率预测的主要方法(1)按照预测时间划分,可分为长期预测、中期预测、短期预测以及超短期预测。
长期预测以年为单位在新风场选址、规划中起着重要作用。
以月为单位的中期预测可以更合理的安排风场大规模检修。
短期预测主要用于优化电网调度,一般提前1~2d进行。
以控制风电机组为目的的超短期预测一般是提前几十分钟或几小时进行预测。
当下的实时预测也属于超短期预测的范畴。
(2)按照预测模型的对象不同,可分为间接法和直接法。
以风速为对象,实现对风速的精准预测进而根据风功率曲线得到预测功率属于间接方法;以功率为研究对象不考虑风速的变化过程进行风功率预测则属于直接方法。
(3)按照所用预测模型差异,可分为统计模型预测和物理模型预测。
忽略风速物理变化过程,依据统计学原理,寻求历史数据和机组输出功率的映射关系,从而进行功率预测的方法叫做统计模型预测方法[1]。
常见的统计模型预测法有卡尔曼滤波法、时间序列法等,和基于智能类模型的人工神经网络法、小波分析法、SVM回归法、模糊逻辑法等。
统计方法依赖于历史数据,这使其在进行长期预测时有一定的局限性,主要体现在大量的数据处理和长期的历史数据统计这两方面。
(4)按照功率预测模型个数划分,可分为单一功率预测和组合功率预测。
像小波分析法、时间序列法、神经网络法等局限在单一的数学模型或物理模型中的预测方法称为单一功率预测。
空间大数据挖掘和异常点分析作者:陈文婧叶雪媛刘万华邱晨罗田来源:《科学与财富》2018年第12期摘要:为了进一步研究空间数据,本文决定以pm2.5数据为例来进行处理。
首先基于南京、扬州、无锡三个城市pm2.5数据的横向比较,可知2017年11月30号的异常点是由于空气湿度或节假日的影响。
然后对影响空气质量的多个因素进行聚类,发现PM2.5与PM10,风速具有显著相关关系。
使用时间序列模型ARIMA(2,1,0)对pm2.5数据作出了短期预测,预测结果与实际结果趋势相同,但不够精确,分析模型的不足,最终提出了改善方法。
关键词:空间数据,异常点,聚类分析,ARIMA模型一、引言空间大气数据具有来源广,类型格式复杂且相互之间不兼容的特点。
本文着重研究大气空间数据的挖掘和异常点分析以及后期的研究路径。
二、数据清洗及异常点分析11.27-3.12期间(除春节假期外)我们统计了南京,扬州,无锡三个城市24小时的,3000多条空气指标数据。
考虑到此次空气指标数据是由团队协作统计得来,数据记录习惯的差异使得整体数据的质量很难达到数据仓库的要求,因此首先要进行数据清洗。
2.1空缺值的填充首先极大可能的填写空缺值,为了保证空缺值与其他数据之间的联系,必须选择依靠现有的数据进行处理得到缺失值,是一种有用的背景知识,它使得原始数据可以在较高的、一般化的抽象层上进行处理,可以用最常出现的概念填充空缺值。
如以南京环境监测站对南京空气污染物检测的数量为例,数据中PM2.5属性列中有一个空缺值,假设已知有三个模糊概念Low, medium, nigh。
对于这三个概念分别计算己有数据的平均隶属函数值,然后我们选择medium进行空缺值填充。
2.2 错误数据的筛选范围检验是数据清洗的最简单形式,它是指检验一个字段中的数据以保证它落在预期范围之内,通常是数字范围或日期范围。
在气象数据中,有时会存在超标的数值,这些对于分析气象信息会起到误导的作用,因此针对这些数据通过有效值检验来清洗。
专利名称:风电功率异常数据点的识别方法专利类型:发明专利
发明人:鲁宗相,乔颖,叶希,王尤嘉
申请号:CN201510451036.6
申请日:20150728
公开号:CN105134484A
公开日:
20151209
专利内容由知识产权出版社提供
摘要:本发明涉及一种风电功率异常数据点的识别方法,包括以下步骤:步骤10,根据风速为不同取值时等效功率曲线上下边界的取值,得到风电场等效功率曲线;步骤20,由通信故障、人为弃风和风力机脱网三种常见事件导致四种典型异常数据点类型1,类型2,类型3及类型4,归纳总结出这四种典型异常数据点的特征;以及步骤30,建立对应不同类型异常数据点的识别判据,以识别四种类型的异常数据点。
申请人:国家电网公司,江苏省电力公司,清华大学
地址:100031 北京市西城区西长安街86号
国籍:CN
代理机构:深圳市鼎言知识产权代理有限公司
代理人:哈达
更多信息请下载全文后查看。
0引言,、、、、,。
,。
、[1]~[4],,、。
,,[5]。
,,,。
,[6]Bayesian ,ARIMA ,,。
[7],,,,。
,,。
[8],,,,。
,。
4,,。
,,,。
,,,。
,,,,。
1基于最小二乘滤波和肖维勒的异常数据识别方法1.1最小二乘滤波、[9]。
收稿日期:2020-07-19。
基金项目:(2018YFB0904200)。
作者简介:(1982-),,,,。
E-mail:******************测风塔异常风速数据识别与补齐方法研究杨茂袁白玉莹(,132012)摘要:,。
,-,,。
,-,。
,,,,。
关键词:;;;;中图分类号:TK51文献标志码:A 文章编号:1671-5292(2021)06-0811-07可再生能源Renewable Energy Resources第39卷第6期2021年6月Vol.39No.6Jun.2021y (t )=X 0exp -tTd ()+Nn =1∑X Rn cos(nkt )+X In cos(nkt )[](1):X Rn n ;X In n ,X Rn =X n cos θn ,X In =X n sin θn ;X n ;θn ;X 0;Td 。
,,,。
1.2肖维勒异常数据识别n ,。
1-12π√ωn -ωn∫exp -x 22()d x =12n (2):ωn ,(2)n ,。
x d:V d >ωn σ,x d V d ≤ωn σ,x d{(3):V d x d ;σ。
,,,,,0.5,。
(2),,。
,,,。
1.3考虑风速波动关联特性的识别结果校正,,,,。
,50m ,3,50m 。
,w i =E a i -E bi(4):E a i i ;E bi i ;w i 。
w i ,3,,。
,,3,i 。
2基于属性重要度和相似片段的数据补齐方法2.1属性重要度2.1.1[11],,。
sig (c )=γR -γR-C (5)γR =∑card RX∑card U(6):sig(c )C ;card ;γ;R ,C ∈R ;RX X 。