当前位置:文档之家› 数据的预处理与用最小二乘和准最小二乘组合方法校正数据

数据的预处理与用最小二乘和准最小二乘组合方法校正数据

数据的预处理与用最小二乘和准最小二乘组合方法校正数据
数据的预处理与用最小二乘和准最小二乘组合方法校正数据

数据的预处理与用最小二乘和准最小二乘组合方法校正数据张正江1, 方伟超1, 张仁1, 骆雅晴1,洪雪聪1, 邵之江2

1. 温州大学,物理与电子信息学院, 温州325035

E-mail: zjzhang@https://www.doczj.com/doc/bf17342819.html,

2. 浙江大学,工业控制技术国家重点实验室,工业控制研究所,杭州310027

摘要:过程系统的控制与优化要求可靠的过程数据。通过测量得到的过程数据含有随机误差和过失误差,当有多组数据时,可以对其进行数据的预处理,减小恒值系统误差的影响。此外,采用数据校正技术可有效地减小过程测量数据的误差,从而提高过程控制与优化的准确性。针对传统基于最小二乘的数据校正方法和基于准最小二乘的鲁棒数据校正方法,分析了两种方法的优缺点,并提出了一种最小二乘与准最小二乘组合方法,综合前两种方法各自的优点,使得数据校正结果更加准确。将提出最小二乘与准最小二乘组合方法应用于线性与非线性系统的数据校正中,通过校正结果的比较验证了此方法的高效性。

关键词:数据预处理,数据校正,过失误差,最小二乘,准最小二乘

Data pretreatment and with the least squares and quasi least squares calibration data combination method

Zhengjiang Zhang1, Weichao Fang1, Ren Zhang1, Yaqing Luo1, Xuecong Hong1,

Zhijiang Shao2

1. College of Physics and Electronic Information Engineering, Wenzhou University, Wenzhou 325035,

Zhejiang, China

E-mail: zjzhang@https://www.doczj.com/doc/bf17342819.html,

2. State Key Laboratory of Industrial Control Technology, Institute of Industrial Control, Zhejiang

University, Hang Zhou 310027, Zhejiang, China

Abstract:Reliable process data are required for process control and optimization. As a result of random and gross errors existing in the measured process data, data rectification is needed to minimize the measurement errors.When there are multiple data,can carry on the data pretreatment and reduce the influence of constant value system error. Therefore, the results of process control and optimization are more accurate. The advantages and disadvantages of methods for data rectification based on weighted least squares and quasi-weighted least squares are analyzed. An efficient method, weighted least squares and quasi-weighted least squares combined method, is proposed in this paper.

The proposed method, considering the advantages of previous two methods, is used for both linear and nonlinear systems. The effectiveness of the method can be demonstrated by the result of numerical simulations.

Key words: data pretreatment, data rectification, gross error, weighted least squares, quasi-weighted least squares

引言

过程系统的控制与优化要求准确的过程数据,然而通过仪表测量获取过程数据不仅存在随机误差而且有时还存在过失误差,直接影响过程控制与优化的准确性。因此采用数据预处理与数据校正技术,调整测量数据,剔除过失误差,减小随机误差的影响,提高测量数据的质量是过程控制与优化实现过程中重要的环节。

自从Kuehn等1961年首先提出化工过程的稳态数据校正问题,其准则为:在满足物料平衡与能量平衡的条件下,要求校正值与其对应的测量值的偏差之平方和最小[1]。此后,国内外学者对数据校正技术做了大量的研究。

在线性系统数据校正方面,Crowe于1983年提出了投影矩阵法处理含有未测量变量的线性数据校正问题,通过在平衡方程两边同乘一个矩阵,使未测量变量的系数全为零,从而消去了未测量变量[2]。之后学者们对投影矩阵的获取方法进行了研究,Swartz运用QR分解方法获取投影矩阵从而解决含未测量变量的数据校正问题0,其后Sanchez和Romagnoli 将此方法发展得更为完善0。Kelly提出了一种相对更简单的求解投影矩阵的算法,并且提出了一种更适用于工程实际的基于奇异值分解的算法,特别适合应用于病态系统的数据校正0。

在非线性系统数据校正方面,Crowe等八十年代提出了一种基于迭代线性化的方法来求解非线性数据校正问题[6-7],随后Liebman等人提出应用非线性规划而非迭代线性化来提高求解非线性数据校正问题效率[8]。1991年Tjoa与Biegler提出了一种有效的算法[9],采用污染的正态分布函数同时描述过失误差和随机误差,并基于极大似然原理构造目标函数。校正目标函数不同于加权最小二乘法,当存在过失误差时也可以得到无偏的校正结果。基于极大似然原理,Johnston等研究了一种灵活的高效的鲁棒的估计方法[10]。此外还有其它不同的鲁棒的估计方法[11-12]。Derya等对化工过程中的数据校正与过失误差诊断各种方法进行了理论分析和数值实验,分析了各种方法的优缺点[13]。

数据校正与参数估计在流程工业上的应用主要有郭超、荣冈等将数据校正技术应用于流程工业企业上的物料平衡计算0。耿宝金与赵霞将数据校正技术应用于能源经营计量系统中0。刘宝卫、赵霞等将过程测量数据校正技术在线应用于甲醇工厂中0。蒲扬飞、陈丙珍等将稳态数据校正技术应用于石脑油裂解过程0。李博、陈丙珍等开发了稳态过程在线数据校正软件DRS,采用方差检验法进行稳态检测,通过两层次变换进行数据分类,将数据预处理、逻辑判断与整体检验法和测量数据检验法相结合用于侦破、识别过失误差,并在工业过程系统进行实施0。韩小岗、刘福国等将数据校正用于诊断锅炉减温水阀门泄漏上0。赵亚明、张维玲等将数据校正技术应用于火电厂煤粉浓度软测量中0。林孔元将数据校正技术应用于常减压蒸馏装置上0。

数据校正一般采用的是最小二乘法,最小二乘法对测量数据仅有随机误差的效果很好,但是当测量数据存在显著误差时,由于显著误差的影响,用最小二乘法获得的校正结果却不准确。因此,学者们鲁棒的估计方法进行了研究,减小数据校正的目标函数对显著误差的影响,从而得到较准确的校正结果。虽然鲁棒的估计方法能抑制显著误差对数据校正结果的影响,然而却不能消除显著误差的影响。本文基于传统的最小二乘法和鲁棒的准最小二乘法的优缺点,提出了一种最小二乘与准最小二乘组合方法,使得数据校正结果更加准确。

1. 数据的预处理

当拿到多组数据时,要先对其进行数据的预处理,得到较为可靠的数据,减小恒

值系统误差的影响。数据的预处理主要是通过编写程序,求出一组大量数据的有效平

均值,从而得到一个较可信的数值。我们需要利用现有的求解算法,针对复杂过程系统的优化问题特点(主要包括大规模、非线性、自由度大、求解困难等),开展高效求解计算方法的研究,从而解决大规模优化问题求解困难的难题。

数据预处理的步骤如下:

现采集了某电压的测量数据各1000次(见附件),对这些测量数据进行处理。

1.用修正值等办法,对测得值进行修正,将已减弱恒值系差影响的各数据x i 依次列成表格。数据为excle 的A1:A1001。

2.求出算术平均值 ,n=1000,x i 为excle 的A1:A1001。求得 为 50.9884

3. 求剩余误差 。C1:C1001

4.求标准差的估计值,利用贝塞尔公式

。求得 = 3.1357

5. 按 的原则,检查和剔除粗差。D1:D989。第一次剔除后剩余988个数据。

6. 后从②开始重新计算。

7. 求出算术平均值 ,n=988,x i 为excle 的D1:D989。求得 为50.8361

求剩余误差 。E1:E989。

∑==n

i i x n x 1

1x x v i i -=∑=-=n i i v n 1

2

11σσ3>i v -x i -x i x x v i i -=∑=-=n i i v n 1

2

11σ∑==n

i i x n x 1

1

求标准差的估计值,利用贝塞尔公式 。求得=2.7903

按 的原则,检查和剔除粗差。F1:F905。第二次剔除后剩余904个数据。 求出算术平均值 ,n=904,x i 为excle 的F1:F904。求得 为 49.9900

求剩余误差 。G1:G905。

求标准差的估计值,利用贝塞尔公式

。求得 =0.2878

的原则,检查和剔除粗差。F1:F905。第三次剔除后剩余904个数据。

由此得出,坏值已经全部剔除。

8. 断有无变值系统误差。

(1).先判断线性误差:

马利科夫判据是判别是否存在累进性系差的方法具体步骤如下: a:将n 项剩余误差 按顺序排列; b:分成前后两半求和,再求其差值D;

当n 为偶数时:

当n 为奇数时:

c :若D=0,则说明数据不存在累进性系差,若D明显地不等于0,

则存在累进性误差。

N=904,求得D=-6.5878,|D|>>|X imax}|的,所以可以判断存在线性误差。

(2).再判断周期误差

若满足下列关系式,则认为在测量中存在周期性系统误差。

|-2.7509| >|2.4898|,所以得出存在周期性系统误差。 若存在变值系统误差,其全部测量数据原则上应该舍弃不用。 σ3>i v x x v i i -=∑=-=n i i v n 1

2

11σσ3>i v ∑==n

i i x n x 11-x i n

x σ

σ=

∑∑+==-

=n

n i i n i i v v D 12/2/1∑∑+=+=-

=n

n i i

n i i v v D 2/)1(2/)1(1

9. 算术平均的标准偏差 求得=0.0096。因为n 很大,所以算术平均值的不确定度为0.0287

10. 写出最后结果 ,U=49.9900±0.0287(V )

2 最小二乘法

目前,最简单的稳态数据校正问题就是只含随机误差的线性问题,传统的校正方法是最小二乘方法,其基本假设是:随机误差服从期望为0的正态分布。最小二乘法对校正随机误差的效果较好,但是当测量数据存在显著误差时,用最小二乘法获得的校正结果却不准确。

在流程工业操作中,仪表测量的数据存在随机误差和显著误差,这直接影响了模拟与优化的精确度。因此采用数据校正技术,调整测量数据,剔除显著误差,减少随机误差的影响,提高测量数据的质量是实时优化实现过程中重要的环节。

当测量变量中只存在随机误差时,可以描述为:

m x x ε=+ (1)

其中m

x 表示测量变量的测量值,x 表示测量变量的真实值,ε表示随机误差。而当测量变量不仅存在随机误差,而且存在显著误差时,此测量变量可描述如下:

m x x b ε=++ (2)

其中b 为显著误差大小。数据校正就是检测并剔除显著误差,减小随机误差,且使得校正值满足过程系统的机理模型方程。数据校正问题一般描述如下:

1

lim (,)()

..(,)0

M m r

i i r f x x e s t G x u ρ===∑

(3)

其中,(,)m

r f x x 为目标函数,()i e ρ为校正误差的某个单调函数, 12[,,...,]m m m m T M x x x x = 为测量变量的测量值,12[,,...,]r r r r T M x x x x = 为测量变量的校正值,12[,,...,]T N M u u u u -=

为未测量变量的估计值,N 为总变量数,M 为测量变量个数,

()r m i i i i

x x e σ-=为测量变量的校正误差,i σ为m

i x 的标准差,(,)0r G x u = 为过程系统的机理

模型方程。

当2

1()2

i i e e ρ=

时,上述原理即为传统的数据校正问题所采用的最小二乘方法。 根据最小二乘法的原理,从大量的工业数据中取出测量数据,确定目标函数。然后根据物料守恒、能量守恒等规律,列出约束方程。最后利用目标函数和约束方程,求得原变量的最优解,由此得到的解即为测量变量的校正值。但由于最小二乘法的前提是随机误差服从期望为0的正态分布,而现实的测量数据中不可避免会出现显著误差,用最小二乘法则会造成显著误差的误判。因此最小二乘法不是鲁棒的估计法,下面提出了一种可信度较高的方法,即准最小二乘法。

x

x A σ3±=

3 准最小二乘法

鲁棒估计方法可以构造一种无偏估计函数,在一定偏离理想条件下对这种偏离不敏感,从而得到相对可靠的结果[22]。若在数据校正方法中引入鲁棒估计方法,可以使目标函数对偏离理想条件的数据不敏感,从而可达到数据校正与显著误差检测同步的要求。

将鲁棒估计理论应用于数据校正中,根据影响函数的定义,可推导出影响函数正比于数

据校正中目标函数的导数,即0()

()d e I de

ρζ∝

,其中e 为校正误差,()e ρ为估计函数。在数据校正问题中,如果()e ρ是鲁棒的估计函数,则()e ρ需满足以下条件:

(1) 当e →∞时,()

d e de

ρ应为一常数c ;

(2) 在随机误差的情况下,即e 较小时,()e ρ应与测量误差近似成正比,即()

d e e de

ρ∝。 对于最小二乘法,2()2

e e ρ=,

()

d e e de ρ=,当e →∞时,()d e de ρ→∞,因此这不是鲁棒的估计法。当测量误差增大时,为了使目标函数对显著误差不敏感,因此构造估计函数

如下:

2()2||

e e e ρβ=

+ (4)

其中||e β为下降因子,用于抑制大的测量误差对目标函数的影响;β为估计器的调整参数。由上式可知,当测量误差较小时,误差对此估计器与对最小二乘估计器影响效果差不多。而测量误差比较大时,由于下降因子的存在使得大的测量误差对此估计器影响较小。如果设定

0β=,此估计法与最小二乘估计法完全相同,因此称此为准最小二乘估计法[23]

。 准最小二乘估计法的影响函数可表示为:

2

22

24,0

(2)()4,0

(2)

e e e e d e de e e e e ββρββ?-

=?+?≥?+? (5) 当e 较小时

()

d e e de

ρ∝ (6) 当e →-∞时

2241

lim (2)e e e e βββ

→-∞-=-

- (7) 当e →+∞时

2241

lim (2)e e e e βββ

→+∞+=+ (8)

因此,准最小二乘估计法是鲁棒的估计法。

由上述过程可以看出,准最小二乘估计法的调整参数β的选择对数据校正的结果影响较大,选择最佳的参数值会使得校正结果更为准确,β的取值可采用方法AIC(Akaike

Information Criterion)进行调整选择。AIC 指标是用来定量地描述过程的真实模型与所建模型

之间的偏差,在此中不再做详细介绍。经过很多组实验结论的对比中得出,本论文采用的实例中β取1为佳,所以以下使用准最小二乘法中,取定1β=。

与最小二乘法相类似,准最小二乘法也是根据目标函数和约束方程求得最优解。根据上文的描述,用函数2()2||

e e e ρβ=

+作为目标函数的估计器,可以避免最小二乘法对显著误

差误判的缺点。但是,考虑到估计结果的准确度,虽然准最小二乘法对显著误差的判别能力比较强,但相对来说,准确度有适当的下降。针对两种方法的优缺点,最后总结了一种既能避免显著误差的误判又能有较高的准确度的方法。

4 一种最小二乘与准最小二乘组合方法

从上文的描述中,我们可知最小二乘法不是鲁棒的估计法,不能准确检测出显著误差;但是它却是优化稳态数据中含有随机误差的线性问题中最理想的校正方法。同时,也可知准最小二乘法是检测显著误差的鲁棒估计法。而流程工业中的测量数据往往同时存在着随机误差和显著误差,因此研究高效的数据校正技术来调整测量数据,先剔除显著误差,再减少随机误差的影响,提高测量数据的质量是本章最重要的环节。 基于对最小二乘和准最小二乘法的分析研究,本文提出了一种高效的数据校正方法,即最小二乘与准最小二乘组合法。该过程操作流程模拟与优化主要通过如下步骤来实现:首先,获取工业流程操作中仪器得到的测量数据,通过算法给定初始值,标准差和真实值。然后就是对其进行数据优化校正:先用最小二乘法进行显著误差检测,若存在显著误差就直接进行剔除,再用最小二乘法进行优化计算,以减少随机误差的影响;若不存在显著误差,那么可直接采用最小二乘法对其进行随机误差的优化校正。最终返回校正结果。过程操作优化的流程可简单表示如图1所示(WLS 为最小二乘法,QWLS 为准最小二乘法)。

5 实例

5.1 线性数据校正实例

本文线性引用Heenan 和serth [24]采用的蒸汽测量流程作为数据校正与显著误差检测的实例,如图2所示。此流程有28个流股,11个结点,即在这个数据校正实例中,共有28个变量,11个等式约束,所有的变量均为测量变量,各测量变量的真实值如表1所示。

将随机误差与显著误差引入测量流量中。当在测量变量3x 中引入显著误差(即使3x 增大30)时,基于最小二乘估计法、准最小二乘估计法和校正两步法的原理,通过Matlab 编程实现算法,对测量变量含有随机误差和显著误差的情况分别进行数据校正和显著误差检测,结果如表1所示。

图1 过程优化流程图

图2 蒸汽测量流程图

表1 蒸汽测量流程的数据校正与显著误差检测结果表

测量变量

真实值

测量值

标准差

最小二乘法

准最小二乘法 组合法 校正值 显著误差 校正值 显著误差 校正值 显著误差 1x 0.860 0.868 0.017 0.869 — 0.868 — 0.868 — 2x

1.000 1.009 0.020 1.011 —

1.009 —

1.009 —

3x 111.820 141.787* 2.236 120.956 3x 112.987 3x

111.650 3x

4x 109.960 110.620 2.199 119.077 4x

111.109 — 109.773 — 5x

53.270 52.889 1.065 53.716 — 53.494 — 53.424 — 6x 112.270 112.094 2.245 109.621 — 112.159 — 112.548 — 7x 2.320 2.339 0.046 2.340 — 2.340 — 2.340 — 8x 164.050 165.009 3.281 161.835 — 164.151 — 164.470 — 9x 0.830 0.838 0.017 0.838 — 0.838 — 0.838 — 10x 52.410 52.573 1.048 52.847 — 52.626 — 52.556 — 11x

14.860 14.722 0.297 14.916 — 14.779 — 14.767 — 12x 67.270 69.740 1.345 67.763 — 67.405 — 67.322 — 13x 111.270 112.236 2.225 108.611 — 111.150 — 111.539 — 14x 91.860 92.188 1.837 95.447 — 92.440 — 91.850 — 15x 60.000 60.309 1.200 61.258 — 60.214 — 60.020 — 16x 23.640 23.755 0.473 24.250 — 23.861 — 23.817 — 17x 32.730 32.660 0.655 33.695 — 32.843 — 32.735 — 18x 16.230 16.281 0.325 16.313 — 16.295 — 16.291 — 19x 7.950 7.898 0.159 7.925 — 7.906 — 7.907 — 20x 10.500 10.543 0.210 10.568 —

10.550 — 10.552 — 21x 87.320 86.502 1.746 90.928 21x

87.939 — 87.343 — 22x 5.450 5.426 0.109 5.407 — 5.420 — 5.420 — 23x 2.590 2.567 0.052 2.570 — 2.568 — 2.568 — 24x 46.630 46.254 0.933 47.783 — 46.771 — 46.581 — 25x 85.460 86.013 1.709 86.606 — 85.846 — 85.719 — 26x

81.320

81.637

1.626

80.264

81.067

81.192

27x 70.790 70.531 1.416 69.769 — 70.593 — 70.718 — 28x

72.230

72.880

1.445

71.004

72.535

72.725

由表1可知,对于蒸汽测量流程的数据校正和显著误差的检测结果,引入3x 的显著误差后,最小二乘法的检测结果把4x 和21x 误判为显著误差;准最小二乘法和组合法则准确检测到只有3x 为显著误差;通过观察三种方法,显然可以发现,采用组合法之后得到的校正值比采用最小二乘和准最小二乘法之后的更接近真实值,它在剔除了显著误差3x 后,又根据算法准确估算了接近真实值3x 的校正值,该线性实例证实了提出的组合法的准确性和高效性。

为了使结论更加有力可信,图3把这三种校正法的结果进行了直观的图像对比。图3中,横轴表示测量变量的个数N ,纵轴表示校正值与真实值之差的绝对值||r i i x x -,那么图中所示的点越接近横轴,就表示校正值与真实值之间的差距越小,即得到的校正结果越准确。对比结果如图3所示(WLS 表示最小二乘法,QWLS 表示准最小二乘法,QWLS+WLS 表示组合法)。

5.2 非线性数据校正实例

本文选取Biegler [25]

曾采用的实例进行研究。该实例中有6个已测变量,2个未测变量,6个非线性约束方程,其约束为:

2221236261321213262123612112

413125

3121236120.50.72255.80,232111.20,333.570,30,20,

2126.60

x x x x x x u x u x x x x x x x u u x x x x x u x x x x u u x x u u x x x x u u ?-+++-=?

-+--+=??-++-=??--++=??-=??++--=? (9)

图3 蒸汽测量流程的校正值与真实值比较图

将随机误差与显著误差引入测量流量中。当在测量变量2x 中引入显著误差(即使2x 增大1)时,基于最小二乘估计法、准最小二乘估计法和校正两步法的原理,通过Matlab 编程实现算法,对测量变量含有随机误差和显著误差的情况分别进行数据校正和显著误差检测,结果如表2所示。

表2 非线性实例的数据校正与显著误差检测结果表

由表2可知,引入显著误差2后,采用最小二乘法会产生1的误判;准最小二乘法和组合法则准确检测到只有2x 为显著误差;再观察三种估计法优化后的校正值,显然可以发现,采用组合法之后得到的校正值比采用最小二乘和准最小二乘法之后的更接近真实值,它在剔除了显著误差2x 后,又根据算法准确估算了接近真实值2x 的校正值,该非线性实例证实了提出的组合法的准确性和高效性。

如前一例子所示,下图为该例的三种校正方法的对比。如图4所示。

图4 非线性实例的校正值与真实值比较图

6 总结

流程工业过程中,测量数据的准确性对于资源的合理利用、故障的推测、系统的优化等都具有很大的作用。因此,对测量数据的校正显得极其重要。本文首先介绍了最小二乘法和准最小二乘法,讨论了他们的优缺点,最后提出了更高效准确的最小二乘和准最小二乘组合方法。然后引用了一个线性实例和一个非线性实例,通过计算机模拟计算比较了三种方法数据校正的结果。从表格和图像中都可以清楚地看到组合法具有更高的鲁棒性,数据校正更准确更高效。

参考文献:

[1]. Kuehn D R, Davidson H. Computer Control II. Mathematics of Control [J]. Chemical Engineering Progress,

1961, 57(6): 44-47.

[2]Crowe C M, Garcia Campos Y A, Hyrmak A. Reconciliation of process flow rates by matrix projection. Part I. Linear case [J]. AIChE J, 1983, 29(6): 881-888.

[3]Swartz C L E. Data reconciliation for generalized flowsheet applications [A]. American Chemical Society National Meeting, Dallas, Tex., 1989.

[4]Sanchez M, Romagnoli J. Use of orthogonal transformations in data classification-reconciliation [J]. Computers and Chemical Engineering, 1996, 20(5), 483-193.

[5]Kelly J D., On finding the matrix projection in the data reconciliation solution [J]. Computers and Chemical Engineering, 1998, 22 (11), 1553-1557.

[6]. Crowe C M, Garcia Campos Y A, Hyrmak A. Reconciliation of process flow rates by matrix projection. Part I.

Linear case [J]. AIChE Journal, 1983, 29(6): 881–888.

[7]. Crowe C M. Reconciliation of process flow rates by matrix projection. Part II. Nonlinear case [J]. AIChE

Journal, 1986, 32(4): 616–623.

[8]. Liebman M J, Edgar T F. Data reconciliation for nonlinear process [A]. In Proceedings of the paper presented

at the AIChE annual meeting, Washington, DC, 1988.

[9]. Tjoa I B, Biegler L T. Simultaneous strategies for data reconciliation and gross error detection of nonlinear

systems [J]. Computers and Chemical Engineering, 1991, 15(10): 679–690.

[10]. Johnston L P M, Kramer M A. Maximum likelihood data rectification: Steady-state systems [J]. AIChE

Journal, 1995, 41(11): 2415–2426.

[11]. Fair R C. On the robust estimation of econometric models [J]. Annals of Economic and Social Measurement,

1974, 3: 667–677.

[12]. Andrews D F, Bickel P J, Hampel F R, Huber P J, Rogers W H, Tukey J W. Robust estimates of location:

Survey and advances [Z]. Princeton, NJ: Princeton University Press, 1972.

[13]. Derya B ?, Ralph W P. Theory and practice of simultaneous data reconciliation and gross error detection for

chemical processes [J]. Computers and chemical Engineering, 2004, 28:381-402.

[14]郭超,金晓明,荣冈,数据校正技术在流程工业企业物料平衡中的应用[J]. 化工自动化及仪表,2005,32(3): 39-41.

[15]耿宝金,赵霞,数据校正技术在能源经营计量系统中的应用[J]. 测控技术,2010,29(5):47-50.

[16]刘宝卫,赵霞,吴胜昔,潘兆鸿,过程测量数据校正技术在甲醇工厂的在线应用[J]. 自动化仪表,2008,

29(2):20-23.

[17]蒲扬飞,陈丙珍,何小荣,稳态数据校正技术在石脑油裂解过程中的应用[J]. 石油化工,2003, 32(12):1058-1062.

[18]李博,陈丙珍,胡惠琴,李健,稳态过程在线数据校正技术的工业实施[J]. 石油化工,2000,29(10):768-771.

[19]韩小岗,刘福国,丁浩,张元生,孙兆勇,基于数据校正的锅炉减温水阀门泄漏诊断[J]. 锅炉技术,2007,38(6): 54-56.

[20]赵亚明,张维玲,火电厂煤粉浓度软测量中数据校正技术[J]. 甘肃科技,2008,24(4):74-93.

[21]林孔元,刘正光,郭爱民,方惠如,重油催化裂化稳态过程数据协调与检测[J]. 天津大学学报, 1996, 29(4): 631-636.

[22] 张正江,过程系统的数据校正与参数估计[D]. 浙江:浙江大学博士学位论文,2010

[23] 张奇然,荣冈. 一种混杂系统数据校正新方法[J]. 化工学报, 2005, 56(6):1057-1062

[24] Serth R.W.,Heenan W. Gross error detection and data reconciliation in steam metering systems[J].AIChEJ,1986,32(5):733一742.

[25] Tjoa I B,Biegler L T. Simultaneous strategies for data reconciliation and gross error detection of nonlinear systems[J] .Computers Chem Eng.1991,15(10):679-690.

递推最小二乘法算法

题目: (递推最小二乘法) 考虑如下系统: )()4(5.0)3()2(7.0)1(5.1)(k k u k u k y k y k y ξ+-+-=-+-- 式中,)(k ξ为方差为0.1的白噪声。 取初值I P 610)0(=、00=∧ )(θ。选择方差为1的白噪声作为输入信号)(k u ,采用PLS 法进行参数估计。 Matlab 代码如下: clear all close all L=400; %仿真长度 uk=zeros(4,1); %输入初值:uk(i)表示u(k-i) yk=zeros(2,1); %输出初值 u=randn(L,1); %输入采用白噪声序列 xi=sqrt(0.1)*randn(L,1); %方差为0.1的白噪声序列 theta=[-1.5;0.7;1.0;0.5]; %对象参数真值 thetae_1=zeros(4,1); %()θ初值 P=10^6*eye(4); %题目要求的初值 for k=1:L phi=[-yk;uk(3:4)]; %400×4矩阵phi 第k 行对应的y(k-1),y(k-2),u(k-3), u(k-4) y(k)=phi'*theta+xi(k); %采集输出数据 %递推最小二乘法的递推公式 K=P*phi/(1+phi'*P*phi); thetae(:,k)=thetae_1+K*(y(k)-phi'*thetae_1); P=(eye(4)-K*phi')*P; %更新数据 thetae_1=thetae(:,k); for i=4:-1:2 uk(i)=uk(i-1); end uk(1)=u(k); for i=2:-1:2 yk(i)=yk(i-1);

系统辨识最小二乘参数估计matlab

最小二乘参数估计 摘要: 最小二乘的一次性完成辨识算法(也称批处理算法),他的特点是直接利用已经获得的所有(一批)观测数据进行运算处理。这种算法在使用时,占用内存大,离线辨识,观测被辨识对象获得的新数据往往是逐次补充到观测数据集合中去的。在应用一次完成算法时,如果要求在每次新增观测数据后,接着就估计出系统模型的参数,则需要每次新增数据后要重新求解矩阵方程()Z l T l l T l ΦΦΦ-∧=1θ。 最小二乘辩识方法在系统辩识领域中先应用上已相当普及,方法上相当完善,可以有效的用于系统的状态估计,参数估计以及自适应控制及其他方面。 关键词: 最小二乘(Least-squares ),系统辨识(System Identification ) 目录: 1.目的 (1) 2.设备 (1) 3引言 (1) 3.1 课题背景 (1) 4数学模型的结构辨识 (2) 5 程序 (3) 5.1 M 序列子函数 ................................................................................. 错误!未定义书签。 5.2主程序............................................................................................... 错误!未定义书签。 6实验结果: ................................................................................................................................... 3 7参考文献: ................................................................................................. 错误!未定义书签。 1.目的 1.1掌握系统辨识的理论、方法及应用 1.2熟练Matlab 下最小二乘法编程 1.3掌握M 序列产生方法 2.设备 PC 机1台(含Matlab 软件) 3引言 3.1 课题背景 最小二乘理论是有高斯(K.F.Gauss )在1795年提出:“未知量的最大可能值是这样一个数值,它使各次实际观测值和计算值之间的差值的平方乘以度量其精度的数值以后的和最小。”这就是最小二乘法的最早思想。 最小二乘辨识方法提供一个估算方法,使之能得到一个在最小方差意义上与实验数据最

偏最小二乘法

偏最小二乘法 ( PLS)是光谱多元定量校正最常用的一种方法 , 已被广泛应用 于近红外 、 红外 、拉曼 、核磁和质谱等波谱定量模型的建立 , 几乎成为光谱分析中建立线性定量校正模型的通用方法 〔1, 2〕 。近年来 , 随着 PLS 方法在光谱分析尤其是分子光谱如近红外 、 红外和拉曼中应用 的深入开展 , PLS 方法还被用来解决模式识别 、定量校正模型适用性判断以及异常样本检测等定性分析问题 。 由于 PLS 方法同时从光谱阵和浓度阵中提取载荷和得分 , 克服主成分分析 ( PCA)方法没有利用浓度阵的缺点 , 可有效降维 , 并消除光谱间可能存在的复共线关系 , 因此取得令人非常满意的定性分析结果 〔3 ~ 5〕 。 本文主要介绍PLS 方法在光谱定性分析方面的原理及应用 实例 。 偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。如美国Tripos 公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS 。在PLS 方法中用的是替潜变量,其数学基础是主成分分析。替潜变量的个数一般少于原自变量的个数,所以PLS 特别适用于自变量的个数多于试样个数的情况。在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。 §§ 6.3.1 基本原理 6.3 偏最小二乘(PLS ) 为了叙述上的方便,我们首先引进“因子”的概念。一个因子为原来变量的线性组合,所以矩阵的某一主成分即为一因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一定,因为一因子可由某一成分经坐标旋转而得。 在主成分回归中,第一步,在矩阵X 的本征矢量或因子数测试中,所处理的仅为X 矩阵,而对于矩阵Y 中信息并未考虑。事实上,Y 中亦可能包含非有用的信息。所以很自然的一种想法是,在矩阵X 因子的测试中应同时考虑矩阵Y 的作用。偏最小二乘正是基于这种思想的一种回归方法。 偏最小二乘和主成分分析很相似,其差别在于用于描述变量Y 中因子的同时也用于描述变量X 。为了实现这一点,在数学上是以矩阵Y 的列去计算矩阵X 的因子,与此同时,矩阵Y 的因子则由矩阵X 的列去预测。其数学模型为: E P T X +'=F Q U Y +'=

普通最小二乘法(OLS)

普通最小二乘法(OLS ) 普通最小二乘法(Ordinary Least Square ,简称OLS ),是应用最多的参数估计方法,也是从最小二乘原理出发的其他估计方法的基础,是必须熟练掌握的一种方法。 在已经获得样本观测值i i x y ,(i=1,2,…,n )的情况下 (见图中的散点),假如模型()的参数估计量已经求得到, 为^0β和^ 1β,并且是最合理的参数估计量,那么直线方程(见 图中的直线) i i x y ^ 1^0^ββ+= i=1,2,…,n 应该能够最 好地拟合样本数据。其中^i y 为被解释变量的估计值,它是由参数估计量和解释变量的观测值计算得到的。那么,被解释变量的估计值与观测值应该在总体上最为接近,判断的标准是二者之差的平方和最小。 ),()(1022101ββββQ u x y Q i i n i i ==--=∑∑= ()()),(min ????1021 10212?,?1100ββββββββQ x y y y u Q n i i n i i i =--=-==∑∑∑== 为什么用平方和因为二者之差可正可负,简单求和可能将很大的误差抵消掉,只有平方和才能反映二者在总体上的接近程度。这就是最小二乘原则。那么,就可以从最小二乘原则和样本观测值出发,求得参数估计量。 由于 2 1 ^1^012 ^ ))(()(∑∑+--=n i i n i i x y y y Q ββ= 是^0β、^1β的二次函数并且非负,所以其极小值总是存在的。根据罗彼塔法则,当Q 对^0β、^ 1β的一阶偏导数为0时,Q 达到最小。即

0011001100?,?1 ?,?0 =??=??====ββββββββββQ Q 容易推得特征方程: ()0)??(0?)??(1011 10==--==-=--∑∑∑∑∑==i i i i n i i i i i i n i i e x x y x e y y x y ββββ 解得: ∑∑∑∑∑+=+=2^ 1^0^1^0i i i i i i x x x y x n y ββββ () 所以有:???? ?????-=---=--=∑∑∑∑∑∑∑=======x y x x y y x x x x n y x y x n n i i n i i i n i i n i i n i i n i i n i i i 10121 21121111??)())(()()()(?βββ () 于是得到了符合最小二乘原则的参数估计量。 为减少计算工作量,许多教科书介绍了采用样本值的离差形式的参数估计量的计算公式。由于现在计量经济学计算机软件被普遍采用,计算工作量已经不是什么问题。但离差形式的计算公式在其他方面也有应用,故在此写出有关公式,不作详细说明。记 ∑=-i x n x 1 ∑=-i y n y 1 y y y x x x i i i i -=-= ()的参数估计量可以写成

几种最小二乘法递推算法的小结

一、 递推最小二乘法 递推最小二乘法的一般步骤: 1. 根据输入输出序列列出最小二乘法估计的观测矩阵?: ] )(u ... )1( )( ... )1([)(T b q n k k u n k y k y k ------=? 没有给出输出序列的还要先算出输出序列。 本例中, 2)]-u(k 1),-u(k 2),-1),-y(k -[-y(k )(T =k ?。 2. 给辨识参数θ和协方差阵P 赋初值。一般取0θ=0或者极小的数,取σσ,20I P =特别大,本例中取σ=100。 3. 按照下式计算增益矩阵G : ) ()1()(1)()1()(k k P k k k P k G T ???-+-= 4. 按照下式计算要辨识的参数θ: )]1(?)()()[()1(?)(?--+-=k k k y k G k k T θ?θθ 5. 按照下式计算新的协方差阵P : )1()()()1()(---=k P k k G k P k P T ? 6. 计算辨识参数的相对变化量,看是否满足停机准则。如满足,则不再递推;如不满足, 则从第三步开始进行下一次地推,直至满足要求为止。 停机准则:ε???<--) (?)1(?)(?max k k k i i i i 本例中由于递推次数只有三十次,故不需要停机准则。 7. 分离参数:将a 1….a na b 1….b nb 从辨识参数θ中分离出来。 8. 画出被辨识参数θ的各次递推估计值图形。 为了说明噪声对递推最小二乘法结果的影响,程序5-7-2在计算模拟观测值时不加噪 声, 辨识结果为a1 =1.6417,a2 = 0.7148,b1 = 0.3900,b2 =0.3499,与真实值a1 =1.642, a2 = 0.715, b1 = 0.3900,b2 =0.35相差无几。 程序5-7-2-1在计算模拟观测值时加入了均值为0,方差为0.1的白噪声序列,由于噪 声的影响,此时的结果为变值,但变化范围较小,现任取一组结果作为辨识结果。辨识结果为a1 =1.5371, a2 = 0.6874, b1 = 0.3756,b2 =0.3378。 程序5-7-2-2在计算模拟观测值时加入了有色噪声,有色噪声为 E(k)+1.642E(k-1)+0.715E(k-2),E(k)是均值为0,方差为0.1的白噪声序列,由于有色噪声的影响,此时的辨识结果变动范围远比白噪声时大,任取一组结果作为辨识结果。辨识结果为a1 =1.6676, a2 = 0.7479, b1 = 0.4254,b2 =0.3965。 可以看出,基本的最小二乘法不适用于有色噪声的场合。

偏最小二乘法算法

偏最小二乘法 1.1 基本原理 偏最小二乘法(PLS )是基于因子分析的多变量校正方法,其数学基础为主成分分析。但它相对于主成分回归(PCR )更进了一步,两者的区别在于PLS 法将浓度矩阵Y 和相应的量测响应矩阵X 同时进行主成分分解: X=TP+E Y=UQ+F 式中T 和U 分别为X 和Y 的得分矩阵,而P 和Q 分别为X 和Y 的载荷矩阵,E 和F 分别为运用偏最小二乘法去拟合矩阵X 和Y 时所引进的误差。 偏最小二乘法和主成分回归很相似,其差别在于用于描述变量Y 中因子的同时也用于描述变量X 。为了实现这一点,数学中是以矩阵Y 的列去计算矩阵X 的因子。同时,矩阵Y 的因子则由矩阵X 的列去预测。分解得到的T 和U 矩阵分别是除去了大部分测量误差的响应和浓度的信息。偏最小二乘法就是利用各列向量相互正交的特征响应矩阵T 和特征浓度矩阵U 进行回归: U=TB 得到回归系数矩阵,又称关联矩阵B : B=(T T T -1)T T U 因此,偏最小二乘法的校正步骤包括对矩阵Y 和矩阵X 的主成分分解以及对关联矩阵B 的计算。 1.2主成分分析 主成分分析的中心目的是将数据降维,以排除众多化学信息共存中相互重叠的信息。他是将原变量进行转换,即把原变量的线性组合成几个新变量。同时这些新变量要尽可能多的表征原变量的数据结构特征而不丢失信息。新变量是一组正交的,即互不相关的变量。这种新变量又称为主成分。 如何寻找主成分,在数学上讲,求数据矩阵的主成分就是求解该矩阵的特征值和特征矢量问题。下面以多组分混合物的量测光谱来加以说明。假设有n 个样本包含p 个组分,在m 个波长下测定其光谱数据,根据比尔定律和加和定理有: A n×m =C n×p B p×m 如果混合物只有一种组分,则该光谱矢量与纯光谱矢量应该是方向一致,而大小不同。换句话说,光谱A 表示在由p 个波长构成的p 维变量空间的一组点(n 个),而这一组点一定在一条通过坐标原点的直线上。这条直线其实就是纯光谱b 。因此由m 个波长描述的原始数据可以用一条直线,即一个新坐标或新变量来表示。如果一个混合物由2个组分组成,各组分的纯光谱用b1,b2表示,则有: 1122 T T T i i i a c b c b =+ 有上式看出,不管混合物如何变化,其光谱总可以用两个新坐标轴b1,b2来表示。因此可以 推出,如果混合物由p 个组分组成,那么混合物的光谱就可由p 个主成分轴的线性组合表示。

基于最小二乘法的系统参数辨识

基于最小二乘法的系统参数辨识 吴令红,熊晓燕,张涛 太原理工大学机械电子研究所,太原 (030024) E-mail lhwu0818@https://www.doczj.com/doc/bf17342819.html, 摘要:系统辨识是自动控制学科的一个重要分支,由于其特殊作用,已经广泛应用于各种领域,尤其是复杂系统或参数不容易确定的系统的建模。过去,系统辨识主要用于线性系统的建模,经过多年的研究,已经形成成熟的理论。但随着社会、科学的发展,非线性系统越来越受到人们的关注,其控制与模型之间的矛盾越来越明显,因而非线性系统的辨识问题也越来越受到重视,其辨识理论不断发展和完善本。文重点介绍了系统参数辨识中最小二乘法的基本原理,并通过悬臂梁模型的辨识实例,具体说明了基于最小二乘法参数辨识在Matlab 中的实现方法。结果表明基于最小二乘法具有算法简单、精度较高等优点。 关键词:系统辨识;参数辨识;滑动平均模型(ARX);最小二乘法;Matlab 中图分类号:TH-9 1. 引言 所谓辨识就是通过测取研究对象在人为输入作用下的输出响应,或正常运行时的输入输出数据记录,加以必要的数据处理和数学计算,估计出对象的数学模型。这是因为对象的动态特性被认为必然表现在它的变化着的输入输出数据之中,辨识只不过是利用数学的方法从数据序列中提炼出对象的数学模型而已[1]。 最小二乘法是系统参数辨识中最基本最常用的方法。最小二乘法因其算法简单、理论成熟和通用性强而广泛应用于系统参数辨识中。本文基于悬臂梁的实测数据,介绍了最小二乘法的参数辨识在Matlab中的实现。 2. 系统辨识 一般而言,建立系统的数学模型有两种方法:激励分析法和系统辨识法。前者是按照系统所遵循的物化(或社会、经济等)规律分析推导出模型。后者则是从实际系统运行和实验数据处理获得模型。如图1所示,系统辨识就是从系统的输入输出数据测算系统数学模型的理论和方法。更进一步的定义是L.A.Zadeh曾经与1962年给出的,即“系统辨识是在输入和输出的基础上,从系统的一类系统范围内,确立一个与所实验系统等价的系统”。另外,系统辨识还应该具有3个基本要素,即模型类、数据和准则[5]。被辨识系统模型根据模型形式可分为参数模型和非参数模型两大类。所谓参数模型是指微分方程、差分方程、状态方程等形式的数学模型;而非参数模型是指频率响应、脉冲响应、传递函数等隐含参数的数学模型。在辨识工程中,模型的确定主要根据经验对实际对象的特性进行一定程度上的假设,如对象的模型是线性的还是非线性的、是参数模型还是非参数模型等。在模型确定之后,就可以根据对象的输入输出数据,按照一定的辨识算法确定模型的参数[4]。 y 图1 被研究的动态系统

偏最小二乘法(PLS)简介

偏最小二乘法(PLS)简介 偏最小二乘法(PLS )简介 偏最小二乘法(PLS )简介 简介 偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。近几十年来,它在理论、方法和应用方面都得到了迅速的发展。 偏最小二乘法 长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中 的一个飞跃。 偏最小二乘法在统计应用中的重要性体现在以下几个方面: 偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用 普通多元回归无法解决的问题。 偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。 主成分回归的主要目的是要提取隐藏在矩阵X 中的相关信息,然后用于预测变量Y 的值。 这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分 进行挑选,那样又太困难了。 偏最小二乘回归可以解决这个问题。它采用对变量X 和Y 都进行分解的方法,从变量X 和Y 中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了 基本概念 偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模 型来描述独立变量Y 与预测变量组X 之间的关系: 偏最小二乘法(PLS) 简介

基于最小二乘法的系统辨识的设计与开发(整理版)

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 基于最小二乘法的系统辨识的设计与开发(整理版)课程(论文)题目: 基于最小二乘法的系统辨识摘要: 最小二乘法是一种经典的数据处理方法。 最小二乘的一次性完成辨识算法(也称批处理算法),他的特点是直接利用已经获得的所有(一批)观测数据进行运算处理。 在系统辨识领域中, 最小二乘法是一种得到广泛应用的估计方法, 可用于动态系统, 静态系统, 线性系统, 非线性系统。 在随机的环境下,利用最小二乘法时,并不要求观测数据提供其概率统计方面的信息,而其估计结果,却有相当好的统计特性。 关键词: 最小二乘法;系统辨识;参数估计 1 引言最小二乘理论是有高斯( K.F.Gauss)在 1795 年提出: 未知量的最大可能值是这样一个数值,它使各次实际观测值和计算值之间的差值的平方乘以度量其精度的数值以后的和最小。 这就是最小二乘法的最早思想。 最小二乘辨识方法提供一个估算方法,使之能得到一个在最小方差意义上与实验数据最好拟合的数学模型。 递推最小二乘法是在最小二乘法得到的观测数据的基础上,用新引入的数据对上一次估计的结果进行修正递推出下一个参数估计值,直到估计值达到满意的精确度为止。 1 / 10

对工程实践中测得的数据进行理论分析,用恰当的函数去模拟数据原型是一类十分重要的问题,最常用的逼近原则是让实测数据和估计数据之间的距离平方和最小,这即是最小二乘法。 最小二乘法是一种经典的数据处理方法。 在随机的环境下,利用最小二乘法时,并不要求观测数据提供其概率统计方面的信息,而其估计结果,却有相当好的统计特性。 2 最小二乘法的系统辨识设单输入单输出线性定常系统的差分方程为: 1),()()() 1()(01knkubkubnkxakxakxnn ( 1)上式中: )(ku为输入信号;)(kx为理论上的输出值。 )(kx只有通过观测才能得到,在观测过程中往往附加有随机干扰。 )(kx的观测值)(ky可表示为 ( 2)将式( 2)代入式( 1)得 1()()() 1()(101kubkubnkyakyakyn (3) 我们可能不知道)(kn的统计特性,在这种情况下,往往把)(kn看做均值为 0 的白噪声。 设 ( 4)则式( 3)可以写成 (5) 在测量)(ku时也有测量误差,系统内部也可能有噪声,应当

系统辨识最小二乘法大作业

系统辨识最小二乘法大作业 系统辨识大作业最小二乘法及其相关估值方法应用 学院:自动化学院 专业:信息工程 学号:2007302171 姓名:马志强 日期:2010.11.14 基于最小二乘法的多种系统辨识方法研究 1. 最小二乘法的引出 在系统辨识中用得最广泛的估计方法是最小二乘法(LS)。 设单输入-单输出线性定长系统的差分方程为 (5.1.1) 式中:为随机干扰;为理论上的输出值。只有通过观测才能得到,在观测过程中往往附加有随机干扰。的观测值可表示为

(5.1.2) 式中:为随机干扰。由式(5.1.2)得 (5.1.3) 将式(5.1.3)带入式(5.1.1)得 (5.1.4) 我们可能不知道的统计特性,在这种情况下,往往把看做均值为0的白噪声。 设 (5.1.5) 则式(5.1.4)可写成 (5.1.6) 在观测时也有测量误差,系统内部也可能有噪声,应当考虑它们的影响。因此假定不仅包含了的测量误差,而且包含了的测量误差和系统内部噪声。假定是不相关随机序列(实际上是相关随机序列)。 现分别测出个随机输入值,则可写成个方程,即 上述个方程可写成向量-矩阵形式 (5.1.7) 设 则式(5.1.7)可写为 (5.1.8) 式中:为维输出向量;为维噪声向量;为维参数向量;为测量矩阵。因此式(5.1.8)是一个含有个未知参数,由个方程组成的联立方程组。如果,方程数少于未知数数目,则方程组的解是不定的,不能唯一地确定参数向量。如果,方程组正好与未知数数目相等,当噪声时,就能准确地解出 (5.1.9) 如果噪声,则

(5.1.10) 从上式可以看出噪声对参数估计是有影响的,为了尽量较小噪声对估值的影响。在给定输出向量和测量矩阵的条件下求系统参数的估值,这就是系统辨识问题。可用最小二乘法来求的估值,以下讨论最小二乘法估计。 2. 最小二乘法估计算法 设表示的最优估值,表示的最优估值,则有 (5.1.11) 写出式(5.1.11)的某一行,则有 (5.1.12) 设表示与之差,即 - (5.1.13) 式中 成为残差。把分别代入式(5.1.13)可得残差。设 则有 (5.1.14) 最小二乘估计要求残差的平方和为最小,即按照指数函数 (5.1.15) 为最小来确定估值。求对的偏导数并令其等于0可得 (5.1.16) (5.1.17) 由式(5.1.17)可得的最小二乘估计 (5.1.18) 3.递推最小二乘法 为了实现实时控制,必须采用递推算法,这种辨识方法主要用于在线辨识。 设已获得的观测数据长度为,将式(5.1.8)中的和分别用来代替, 即 (5.3.1) 用的最小二乘估计,则 (5.3.2)

(完整word版)最小二乘法及其应用..

最小二乘法及其应用 1. 引言 最小二乘法在19世纪初发明后,很快得到欧洲一些国家的天文学家和测地学家的广泛关注。据不完全统计,自1805年至1864年的60年间,有关最小二乘法的研究论文达256篇,一些百科全书包括1837年出版的大不列颠百科全书第7版,亦收入有关方法的介绍。同时,误差的分布是“正态”的,也立刻得到天文学家的关注及大量经验的支持。如贝塞尔( F. W. Bessel, 1784—1846)对几百颗星球作了三组观测,并比较了按照正态规律在给定范围内的理论误差值和实际值,对比表明它们非常接近一致。拉普拉斯在1810年也给出了正态规律的一个新的理论推导并写入其《分析概论》中。正态分布作为一种统计模型,在19世纪极为流行,一些学者甚至把19世纪的数理统计学称为正态分布的统治时代。在其影响下,最小二乘法也脱出测量数据意义之外而发展成为一个包罗极大,应用及其广泛的统计模型。到20世纪正态小样本理论充分发展后,高斯研究成果的影响更加显著。最小二乘法不仅是19世纪最重要的统计方法,而且还可以称为数理统计学之灵魂。相关回归分析、方差分析和线性模型理论等数理统计学的几大分支都以最小二乘法为理论基础。正如美国统计学家斯蒂格勒( S. M. Stigler)所说,“最小二乘法之于数理统计学犹如微积分之于数学”。最小二乘法是参数回归的最基本得方法所以研究最小二乘法原理及其应用对于统计的学习有很重要的意义。 2. 最小二乘法 所谓最小二乘法就是:选择参数10,b b ,使得全部观测的残差平方和最小. 用数学公式表示为: 21022)()(m in i i i i i x b b Y Y Y e --=-=∑∑∑∧ 为了说明这个方法,先解释一下最小二乘原理,以一元线性回归方程为例. i i i x B B Y μ++=10 (一元线性回归方程)

最小二乘法

第3章 线性动态模型参数辨识-最小二乘法 3.1 辨识方法分类 根据不同的辨识原理,参数模型辨识方法可归纳成三类: ① 最小二乘类参数辨识方法,其基本思想是通过极小化如下准则函数来估计模型参数: min )()? (?== ∑=θ θL k k J 1 2ε 其中)(k ε代表模型输出与系统输出的偏差。典型的方法有最小二乘法、增广最小二乘法、辅助变量法、广义最小二乘法等。 ② 梯度校正参数辨识方法,其基本思想是沿着准则函数负梯度方向逐步修正模型参数,使准则函数达到最小,如随机逼近法。 ③ 概率密度逼近参数辨识方法,其基本思想是使输出z 的条件概率密度)|(θz p 最大限度地逼近条件0θ下的概率密度)|(0θz p ,即 )|()?|(0m a x θθz p z p ??→?。典型的方法是极大似然法。 3.2 最小二乘法的基本概念 ● 两种算法形式 ① 批处理算法:利用一批观测数据,一次计算或经反复迭代,以获得模型参数的估计值。 ② 递推算法:在上次模型参数估计值)(? 1-k θ的基础上,根据当前 获得的数据提出修正,进而获得本次模型参数估计值)(? k θ,广泛采用的递推算法形式为 () ()()()~()θθk k k k d z k =-+-1K h 其中)(? k θ表示k 时刻的模型参数估计值,K (k )为算法的增益,h (k -d ) 是由 观测数据组成的输入数据向量,d 为整数,)(~k z 表示新息。 ● 最小二乘原理

定义:设一个随机序列)},,,(),({L k k z 21∈的均值是参数θ 的线性函数 E{()}()T z k k θ=h 其中h (k )是可测的数据向量,那么利用随机序列的一个实现,使准则函数 21 ()[()()]L T k J z k k θθ==-∑h 达到极小的参数估计值θ? 称作θ的最小二乘估计。 ● 最小二乘原理表明,未知参数估计问题,就是求参数估计值θ? ,使序列的估计值尽可能地接近实际序列,两者的接近程度用实际序列与序列估计值之差的平方和来度量。 ● 如果系统的输入输出关系可以描述成如下的最小二乘格式 ()()()T z k k e k θ=+h 式中z (k )为模型输出变量,h (k )为输入数据向量,θ为模型参数向量,e (k )为零均值随机噪声。为了求此模型的参数估计值,可以利用上述最小二乘原理。根据观测到的已知数据序列)}({k z 和)}({k h ,极小化下列准则函数 21()[()()]L T k J z k k θθ==-∑h 即可求得模型参数的最小二乘估计值θ? 。 ● 最小二乘估计值应在观测值与估计值之累次误差的平方和达到最小值处,所得到的模型输出能最好地逼近实际系统的输出。 3.3 最小二乘问题的描述 (1) 考虑模型 )()()()()(11k e k u z B k z z A +=-- 式中u (k )和z (k ) 分别为过程的输入和输出变量,e (k )是均值为零、方差为2 n σ的随机噪声,)(1-z A 和)(1-z B 为迟延算子多项式,写成 A z a z a z a z B z b z b z b z n n n n a a b b ()()--------=++++=+++?????11122111221 (2) 假定模型阶次n a 和n b 为已知,且有b a n n ≥,也可设n n n b a ==, 并定义

基于最小二乘法的系统参数辨识

基于最小二乘法的系统参数辨识 研究生二队李英杰 082068 摘要:系统辨识是自动控制学科的一个重要分支,由于其特殊作用,已经广泛应用于各种领域,尤其是复杂系统或参数不容易确定的系统的建模。过去,系统辨识主要用于线性系统的建模,经过多年的研究,已经形成成熟的理论。但随着社会、科学的发展,非线性系统越来越受到人们的关注,其控制与模型之间的矛盾越来越明显,因而非线性系统的辨识问题也越来越受到重视,其辨识理论不断发展和完善本。文重点介绍了系统参数辨识中最小二乘法的基本原理,并通过热敏电阻阻值温度关系模型的辨识实例,具体说明了基于最小二乘法参数辨识在Matlab中的实现方法。结果表明基于最小二乘法具有算法简单、精度较高等优点。 1. 引言 所谓辨识就是通过测取研究对象在人为输入作用下的输出响应,或正常运行时的输入输出数据记录,加以必要的数据处理和数学计算,估计出对象的数学模型。这是因为对象的动态特性被认为必然表现在它的变化着的输入输出数据之中,辨识只不过是利用数学的方法从数据序列中提炼出对象的数学模型而已[1]。最小二乘法是系统参数辨识中最基本最常用的方法。最小二乘法因其算法简单、理论成熟和通用性强而广泛应用于系统参数辨识中。本文基于热敏电阻阻值与温度关系数据,介绍了最小二乘法的参数辨识在Matlab中的实现。 2. 系统辨识 一般而言,建立系统的数学模型有两种方法:激励分析法和系统辨识法。前者是按照系统所遵循的物化(或社会、经济等)规律分析推导出模型。后者则是从实际系统运行和实验数据处理获得模型。如图1 所示,系统辨识就是从系统的输入输出数据测算系统数学模型的理论和方法。更进一步的定义是L.A.Zadeh 曾经与1962 年给出的,即“系统辨识是在输入和输出的基础上,从系统的一类系统范围内,确立一个与所实验系统等价的系统”。另外,系统辨识还应该具有3 个基本要素,即模型类、数据和准则[5]。被辨识系统模型根据模型形式可分为参数模型和非参数模型两大类。所谓参数模型是指微分方程、差分方程、状态方程等形式的数学模型;而非参数模型是指频率响应、脉冲响应、传递函数等隐含参数的数学模型。在辨识工程中,模型的确定主要根据经验对实际对象的特性进行一定程度上的假设,如对象的模型是线性的还是非线性的、是参数模型还是非参数模型等。在模型确定之后,就可以根据对象的输入输出数据,按照一定的辨识算法确定模型的参数[4]。 图1 被研究的动态系统 3. 最小二乘法(LS)参数估计方法 对于参数模型辨识结构,系统辨识的任务是参数估计,即利用输入输出数据估计这些参数,建立系统的数学模型。在参数估计中最常用的是最小二乘法(LS)、

(完整)系统辨识—最小二乘法汇总,推荐文档

最小二乘法参数辨识 201403027 摘要:系统辨识在工程中的应用非常广泛,系统辨识的方法有很多种,最小 二乘法是一种应用极其广泛的系统辨识方法.阐述了动态系统模型的建立及其最小二乘法在系统辨识中的应用,并通过实例分析说明了最小二乘法应用于系统辨识中的重要意义. 关键词:最小二乘法;系统辨识;动态系统 Abstract: System identification in engineering is widely used, system identification methods there are many ways, least squares method is a very wide range of application of system identification method and the least squares method elaborated establish a dynamic system models in System Identification applications and examples analyzed by the least squares method is applied to illustrate the importance of system identification. Keywords: Least Squares; system identification; dynamic system

引言 随着科学技术的不断发展,人们认识自然、利用自然的能力越来越强,对于未知对象的探索也越来越深入.我们所研究的对象,可以依据对其了解的程度分为三种类型:白箱、灰箱和黑箱.如果我们对于研究对象的内部结构、内部机制了解很深入的话,这样的研究对象通常称之为“白箱”;而有的研究对象,我们对于其内部结构、机制只了解一部分,对于其内部运行规律并不十分清楚,这样的研究对象通常称之为“灰箱”;如果我们对于研究对象的内部结构、内部机制及运行规律均一无所知的话,则把这样的研究对象称之为“黑箱”.研究灰箱和黑箱时,将研究的对象看作是一个系统,通过建立该系统的模型,对模型参数进行辨识来确定该系统的运行规律.对于动态系统辨识的方法有很多,但其中应用最广泛,辨识 效果良好的就是最小二乘辨识方法,研究最小二乘法在系统辨识中的应用具有现实的、广泛的意义. 1.1 系统辨识简介 系统辨识是根据系统的输入输出时间函数来确定描述系统行为的数学模型。现代控制理论中的一个分支。通过辨识建立数学模型的目的是估计表征系统行为的重要参数,建立一个能模仿真实系统行为的模型,用当前可测量的系统的输入和输出预测系统输出的未来演变,以及设计控制器。对系统进行分析的主要问题是根据输入时间函数和系统的特性来确定输出信号。对系统进行控制的主要问题是根据系统的特性设计控制输入,使输出满足预先规定的要求。而系统辨识所研究的问题恰好是这些问题的逆问题。通常,预先给定一个模型类μ={M}(即给定一类已知结构的模型),一类输入信号u和等价准则J=L(y,yM)(一般情况下,J是误差函数,是过程输出y和模型输出yM的一个泛函);然后选择使误差函数J达到最小的模型,作为辨识所要求的结果。系统辨识包括两个方面:结构辨识和参数估计。在实际的辨识过程中,随着使用的方法不同,结构辨识和参数估计这两个方面并不是截然分开的,而是可以交织在一起进行的。 1.2系统辨识的目的 在提出和解决一个辨识问题时,明确最终使用模型的目的是至关重要的。它对模型类(模型结构)、输入信号和等价准则的选择都有很大的影响。通过辨识建立数学模型通常有四个目的。 ①估计具有特定物理意义的参数有些表征系统行为的重要参数是难以直接测量的,例如在生理、生态、环境、经济等系统中就常有这种情况。这就需要通过能观测到的输入输出数据,用辨识的方法去估计那些参数。 ②仿真仿真的核心是要建立一个能模仿真实系统行为的模型。用于系统分析的仿真模型要求能真实反映系统的特性。用于系统设计的仿真,则强调设计参数能正确地符合它本身的物理意义。 ③预测这是辨识的一个重要应用方面,其目的是用迄今为止系统的可测量的输入和输出去预测系统输出的未来的演变。例如最常见的气象预报,洪水预报,其他如太阳黑子预报,市场价格的预测,河流污染物含量的预测等。预测模型辨识的等价准则主要是使预测误差平方和最小。只要预测误差小就是好的预测

偏最小二乘法基本知识

偏最小二乘法(PLS)简介-数理统计 偏最小二乘法partial least square method是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。近几十年来,它在理论、方法和应用方面都得到了迅速的发展。 偏最小二乘法 长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。 偏最小二乘法在统计应用中的重要性体现在以下几个方面: 偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。 偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。 主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。 偏最小二乘回归可以解决这个问题。它采用对变量X和Y都进行分解的方法,从变量X和Y 中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了

基本概念 偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系: Y= b0 + b1X1 + b2X2 + ... + bpXp 在方程中,b0是截距,bi的值是数据点1到p的回归系数。 例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。对许多的数据分析方法来说,最大的问题莫过于准确的描述观测数据并且对新的观测数据作出合理的预测。 多元线性回归模型为了处理更复杂的数据分析问题,扩展了一些其他算法,象判别式分析,主成分回归,相关性分析等等,都是以多元线性回归模型为基础的多元统计方法。这些多元统计方法有两点重要特点,即对数据的约束性: 1.变量X和变量Y的因子都必须分别从X'X和Y'Y矩阵中提取,这些因子就无法同时表示变量X和Y的相关性。 2.预测方程的数量永远不能多于变量Y跟变量X的数量。 偏最小二乘回归从多元线性回归扩展而来时却不需要这些对数据的约束。在偏最小二乘回归中,预测方程将由从矩阵Y'XX'Y中提取出来的因子来描述;为了更具有代表性,提取出来的预测方程的数量可能大于变量X与Y的最大数。 简而言之,偏最小二乘回归可能是所有多元校正方法里对变量约束最少的方法,这种灵活性让它适用于传统的多元校正方法所不适用的许多场合,例如一些观测数据少于预测变量数时。并且,偏最小二乘回归可以作为一种探索性的分析工具,在使用传统的线性回归模型之前,先对所需的合适的变量数进行预测并去除噪音干扰。

偏最小二乘法

偏最小二乘法( PLS)是光谱多元定量校正最常用的一种方法, 已被广泛应用于近红外、红外、拉曼、核磁和质谱等波谱定量模型的建立, 几乎成为光谱分析中建立线性定量校正模型的通用方法〔1, 2〕。近年来, 随着PLS方法在光谱分析尤其是分子光谱如近红外、红外和拉曼中应用的深入开展, PLS 方法还被用来解决模式识别、定量校正模型适用性判断以及异常样本检测等定性分析问题。由于PLS方法同时从光谱阵和浓度阵中提取载荷和得分, 克服主成分分析( PCA)方法没有利用浓度阵的缺点, 可有效降维, 并消除光谱间可能存在的复共线关系, 因此取得令人非常满意的定性分析结果〔3 ~5〕。本文主要介绍PLS方法在光 谱定性分析方面的原理及应用实例。 偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。如美国Tripos公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS。在PLS方法中用的是替潜变量,其数学基础是主成分分析。替潜变量的个数一般少于原自变量的个数,所以PLS特别适用于自变量的个数多于试样个数的情况。在此种情况下, 亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。 §§ 6.3.1 基本原理 6.3 偏最小二乘(PLS) 为了叙述上的方便,我们首先引进“因子”的概念。一个因子为原来变量的线性组合,所以矩阵的某一主成分即为一因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一定,因为一因子可由某一成分经坐标旋转而得。 在主成分回归中,第一步,在矩阵X的本征矢量或因子数测试中,所处理的仅为X矩阵,而对于矩阵Y 中信息并未考虑。事实上,Y中亦可能包含非有用的信息。所以很自然的一种想法

最小二乘参数辨识方法及应用程序清单

第3章最小二乘参数辨识方法及应用程序清单 一、3.2.2节利用最小二乘法求取模型参数的程序 二、3.3 加权最小二乘算法 程序3:最小二乘参数辨识程序 clear all%清理工作间变量 close all%关闭所有图形 clc%清屏 z(1)=440,z(2)=430,z(3)=420,z(4)=380,z(5)=370,z(6)=360,z(7)=320,z(8)=310,z(9)=300,z(10)=260,z(11)=250,z(12 )=240,z(13)=220,z(14)=210,z(15)=170,z(16)=160; u(1)=3,u(2)=2.7,u(3)=2.4,u(4)=2.1,u(5)=2.0,u(6)=1.9,u(7)=1.6,u(8)=1.54,u(9)=1.48,u(10)=1.2,u(11)=1.14,u(12)=1 .08,u(13)=0.95,u(14)=0.9,u(15)=0.7,u(16)=0.6; HL=[-z(1) u(1);-z(2) u(2);-z(3) u(3);-z(4) u(4);-z(5) u(5);-z(6) u(6); -z(7) u(7); -z(8) u(8);-z(9) u(9); -z(10) u(10);-z(11) u(11);-z(12) u(12);-z(13) u(13);-z(14) u(14)] %给样本矩阵HL赋值 ZL=[z(3);z(4);z(5);z(6);z(7);z(8);z(9);z(10);z(11);z(12);z(13);z(14);z(15);z(16)]% 给样本矩阵zL赋值 %calculating parameters%计算参数 c1=HL'*HL; c2=inv(c1); c3=HL'*ZL; c=c2*c3 %计算并显示 %DISPLAY PARAMETERS a2=c(1), b2=c(2)

相关主题
文本预览
相关文档 最新文档