最小二乘法小结分析

  • 格式:doc
  • 大小:1.91 MB
  • 文档页数:44

下载文档原格式

  / 68
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

最小二乘法原理

1. 介绍部分

最小二乘法是获得物理参数唯一值的标准方法,具体是通过这些参数或者在已知数学模型中与这些参数相关的参数的多余观测值来求得。

最小二乘法最早是由高斯提出,用来估计行星运行轨道的。

1.1 数理统计和最小二乘法

物理量总是不能被精确测定。总是存在一个限定的测量精度,超过这个精度,相关的数学模型和测量仪器的分辨率这两者之一或者全部将会无能为力。超出这个精度,多余观测值之间会产生差异。

我们常常希望获得超过该限定精度的测量值,在不知道真值的情况下我们只能估计真值。一方面我们想要估计出唯一的值,另一方面,我们想要知道这个估计有多好。最小二乘法就是这样一个估计,它基于最小化差值的平方和。

最小二乘法相比其他传统的方法有三个优点。其一,它既可以应用在线性数学模型上也可以应用在非线性数学模型上;其二,它和统计量算术平均值有关;其三,最小二乘法在很多领域是通用的。

物理量的值的唯一统计估计称为点估计。无论频率函数是否知道,我们都可以作物理量的点估计并且可以衡量它与真值趋近程度。另外两种估计,区间估计以及假设检验,它们只能在相应的频率函数已经确定的情况下进行。

1.2 线性代数和最小二乘法

(nontrivial=nonzero,非平凡解就是指非零解)

现有线性方程组

A X= L (1-1)

X是未知数向量,L是常数向量,A是系数矩阵,[A:L]是增广矩阵。该方程组有唯一非零解仅当

L ≠ 0 (非齐次方程组),(1-2a)

r (A) = X的维数,(1-2b)

r ([A:L]) = r (A)。 (1-2c )

当没有多余等式时,准则(1-2b )意味着A 是方阵且非奇异,它的逆矩阵是存在的,这样方程组的解就表达成

X = A 1- L (1-3)

当存在多余等式时,A 将不是方阵,但是A T A 是方阵且非奇异,这样方程组的解就表达成

X = (A T A) 1- A T

L 。 (1-4) L 的元素对应于物理量观测值,基于上述数学讨论,如果没有多余观测量(即没有多余的等式),则未知量将只有唯一的非零解。如果存在多余观测量,它们之间将互相不一致,因为观测存在误差。这样(1-2c )准则就无法满足,也就不存在唯一解。我们只能对结果做一个唯一的估计。从而引入了最小二乘准则。

因为观测误差的存在,使得方程组(1-1)左右矛盾,为此引入一个向量来抵消这个矛盾,从而使方程组成立。于是有

A X - L = V (1-5)

V 称为残差向量。引入^

X 作为X 的最优估值,这样最小二乘准则表达为 =--=)()(^

^^^L X A L X A V V T T min (1-6)

估值^X 称为最小二乘估值。由式(1-4)可得 L A A A X T T 1^

)(-=, (1-7)

观测误差或残差的最优估值由下式得出 L X A V -=^

^ 。 (1-8)

这些估值称为简单最小二乘估值,或者称为等权最小二乘估值。

组成L 的物理量观测值不总是等精度的(比如采用了不同的观测仪器或者不同的观测条件),因此我们给每个观测量分配一个已知的权重,由这些元素构成的矩阵称为权阵P 。这样,先前的最小二乘准则调整为 =^

^V P V T min 。 (1-9)

未知量估值调整为 PL A PA A X T T 1^

)(-= (1-10)

如果P作为观测值的估量协方差阵的逆阵,那么最小二乘估计就是最小方差估计;如果观测误差是正态分布,那么最小二乘方差估计就是最大似然估计。

考虑更一般的情形,此时观测量未知参数的非线性方程相关

-

)

F=

((1-11)

V

L

X

或者,观测量与未知参数的方程非线性相关

L

X

+V

F(1-12)

)

,

(=

1.3 数字计算机和最小二乘法

从实际出发,矩阵求逆以及矩阵乘法都要求海量的计算步骤。在大型快速计算机发明以前,除非绝对必要,一般是不会去做这样的尝试。然而测量网坐标的最小二乘估计就是这样的必要情况。以前的大地测量学家在简化步骤创新方法上做出很多努力,计算机发明之后这项工作显得没原来那么重要了。然而计算机也不能同时计算多达数千个方程,因此,如今大地测量学家把精力放在改进算法上,以便将一个大问题拆分成许多小问题,再逐一解决。

1.4 高斯和最小二乘法

以下是对高斯一段引文的翻译

“如果用于轨道计算的天文观测值和其他量是完全正确的,则轨道要素也是严格准确的,而无论是从三个或者四个观测值上推导出来(到目前为止轨道运动确实按照开普勒定律在进行),因此,如果使用其他观测值,则轨道要素可能被确定但不准确。但是,因为我们的所有测量值和观测值都只是真值的近似,那么依赖于它们的所有计算也一定是正确的,关于具体现象的所有计算的最高目标一定是近似与真值的,只要接近到可实用的程度。但这只能通过将多于确定未知量所必要的观测量进行适当组合来完成。这个问题只有当轨道的大概知识已经获得的情况下才能处理,这个大概的知识之后将得到改正以便以尽可能最精确的方式满足所有的观测值。”

从这段写于150年前的话可以总结出以下观点

a、数学模型可能不完整,

b、物理测量值存在矛盾,

c、从矛盾的物理测量值出发进行计算就是为了估计出真值,

d、多余测量值将会减小测量值矛盾的影响,

e、在最终估值前需要使用大概的初值,

f、通过一种方法最小化测量值之间的矛盾值,从而改正初值(高斯所指的最小二乘法)。

2. 统计学定义和概念

2.1 统计学术语

统计学,统计量,变量,连续变量,离散变量,常量。

一般的测量结果都是连续变量,计算结果是离散变量。

随机变量,包含一个值域(跟普通变量相同)和一个概率函数。

总体(population),个体(individual),样本,随机样本(通常样本指的都是随机样本)。样本空间,样本点和事件在使用中分别代替总体,个体和随机样本。

分组(class),分组界限,组距,组频率,相对频率。

*没有哪一个关于概率的定义是被所有统计学家所接受的。经典的定义是,等可能取自总体

Pr(A等于所有落入A的个体占总体的分数。这是一个间接定的一个个体落入组A的概率)

义,因为等可能实际上就是等概率,因此是用概率自己定义了自己。有两种办法来解决这个

Pr(A为从总体中选择一个个体,在n 问题,但都不是完全令人满意的。第一种,定义概率)

次(当n趋于无穷)选择中,个体落入组A的相对频率。第二种,接受“概率”是一个不可定义的概念,仍然称适用于概率的规定为公理。

2.2 频率函数(概率密度函数)

累积频率函数(分布函数,累积分布函数,累积概率函数),频率分布(p26)。

频率分布的两个重要特点:集中趋向,离中趋势(离散度)。

频率分布两个次重要特点:偏斜度,峰度。

集中趋向的度量方法包括:算术平均值,中位数,众数(mode),几何平均数以及调和平均数。

离散度的度量方法包括:标准差,平均偏差以及极差(range)。