最小二乘估计量
- 格式:ppt
- 大小:220.50 KB
- 文档页数:11
最小二乘法参数估计量推导最小二乘法,这个名字听上去挺高深的,其实就是一种简单而强大的数学工具,广泛应用于数据分析中。
今天,我们就来聊聊这玩意儿到底是怎么一回事。
1. 什么是最小二乘法最小二乘法其实就是在做“找差距”的工作。
假设你有一堆数据点,比如说你测量了一系列的温度和对应的电力消耗,你的目标是找到一条最能贴合这些数据点的直线。
这条直线就像是你为数据“量体裁衣”的结果。
1.1. 基本思想最小二乘法的核心思想就是:找到一条直线,使得每一个数据点到这条直线的距离(叫做“残差”)的平方和最小。
这个“平方和”就像是把所有的偏差加起来,让它们不再那么“任性”。
1.2. 为什么用“平方”?那为什么要把这些偏差平方呢?因为平方能有效地放大大的误差,这样我们就不容易忽视它们。
就像打麻将,偏差大的牌更容易被看见,才能让我们在游戏中更精准地调整策略。
2. 数学推导好啦,接下来我们就来捋一捋这个过程。
咱们还是从简单的说起:假设你有一组数据点(x₁, y₁)、(x₂, y₂)、……、(xₙ, yₙ),而你要找的是一条直线y = β₀ + β₁x。
这条直线就是我们的“理想之线”。
2.1. 定义目标函数我们的目标就是最小化所有这些点到直线的距离平方和。
用数学的语言来描述,就是要最小化目标函数:[ S(beta_0, beta_1) = sum_{i=1}^n (y_i beta_0 beta_1 x_i)^2 ]。
这里面,(y_i beta_0 beta_1 x_i)就是每一个点到直线的距离,平方了之后就能让误差更加明显。
2.2. 求导数为了找到最小值,我们需要对目标函数进行求导数,然后让导数等于零。
这个过程就像是找到山顶的最低点一样。
我们分别对β₀和β₁求偏导数,然后设定这些偏导数为零,得到两个方程:[ frac{partial S}{partial beta_0} = 0 ]。
[ frac{partial S}{partial beta_1} = 0 ]。
最⼤似然估计(MLE )与最⼩⼆乘估计(LSE )的区别最⼤似然估计与最⼩⼆乘估计的区别标签(空格分隔): 概率论与数理统计最⼩⼆乘估计对于最⼩⼆乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平⽅和最⼩。
设Q 表⽰平⽅误差,Y i 表⽰估计值,ˆY i 表⽰观测值,即Q =∑n i =1(Y i −ˆY i )2最⼤似然估计对于最⼤似然估计来说,最合理的参数估计量应该使得从模型中抽取该n 组样本的观测值的概率最⼤,也就是概率分布函数或者似然函数最⼤。
显然,最⼤似然估计需要已知这个概率分布函数,⼀般假设其满⾜正态分布函数的特性,在这种情况下,最⼤似然估计与最⼩⼆乘估计是等价的,也就是估计的结果是相同的。
最⼤似然估计原理:1. 当给定样本x 1,x 2,...,x n 时,定义似然函数为L (θ)=f (x 1,x 2,...,x n ;θ);2. L (θ)看做是θ的函数,最⼤似然估计就是⽤使L (θ)达到最⼤值的ˆθ去估计θ,这时称ˆθ为θ的最⼤似然估计;MLE 的步骤:1. 由总体分布导出样本的联合概率函数(或联合密度);2. 把样本联合概率函数的⾃变量看成是已知常数,⽽把θ看做是⾃变量,得到似然函数L (θ);3. 求似然函数的最⼤值(常常取对数,然后求驻点);4. ⽤样本值带⼊得到参数的最⼤似然估计。
例题设⼀个有偏的硬币,抛了100次,出现1次⼈头,99次字。
问⽤最⼤似然估计(ML )和最⼩均⽅误差(LSE )估计出现⼈头的概率哪个⼤?LSE设使⽤LSE 估计,出现⼈头的概率为θ, 则出现字的概率为1−θ。
已知观测量为:(观测到的)出现⼈头的概率为1100, (观测到的)出现字的概率为99100,则由最⼩⼆乘估计:Q (θ)=argmin θ∑1001(θ−ˆθ)2=argmin θ{(1100−θ)2+[99100−(1−θ)]2∗99}令∂Q (θ)∂θ=0,解得θ=1100;ML设使⽤ML 估计,所以x 服从伯努利分布,x ∼B (朝上,θ),则概率密度函数为:P (x |θ)=θ,if x ⼈头朝上1−θ,if x 字朝上则连续100次试验的似然函数为:P (x 1,x 2,..x 100|θ)=C 1100θ1∗(1−θ)99=100∗θ1∗(1−θ)99最⼤化似然函数,则θ⾄少为驻点,对似然函数取对数并求偏导:ln P (x 1,x 2,..x 100|θ)=ln100+ln θ+99ln(1−θ)对θ求偏导为0,得到:∂ln P (x 1,x 2,..x 100|θ)∂θ=1θ−991−θ=0, 解得θ=1100.{两者虽然得到的估计值是⼀样的,但是原理完全不同,要对他们的推导过程⾮常清楚。
2. (1)用最小二乘法,求参数估计量.由于21^)(∑-=ni iy yQ ,=21^1^0)]([∑+-ni ix yββ(i i x y ^1^0^ββ+= )我们可以知道,Q 是^1^0,ββ的二次函数并且是非负数.所以Q 的极小值总是存在的.(为什么?) 根据极值存在的必要条件知,⎪⎪⎩⎪⎪⎨⎧=∂∂=∂∂001^0^ββQ Q(为什么不是充分条件?)由此,不难推得:⎪⎩⎪⎨⎧=-+=-+∑∑0)(0)(^1^0^1^0i i i i i x y x y x ββββ(4) 进而得到:⎪⎩⎪⎨⎧+=+=∑∑∑∑∑2^1^0^1^0i i i i i i x x x y x n y ββββ(5)于是解得(怎么解?)⎪⎪⎩⎪⎪⎨⎧--=--=∑∑∑∑∑∑∑∑∑∑∑22^1222^0)()(i i i i i i i i i i i i i x x n x y x y n x x n x y x y x ββ(6)另外,可以将公式(6)简化变形得⎪⎪⎩⎪⎪⎨⎧-==∑∑∙∙∙__^1__^02^1xy x y x i i i βββ(7)其中,____;yy y x x x i i i -=-=∙∙ny y nx x ii∑∑==____;(2)求随机误差项方差的估计量.记^i i i y y e -=为第i 个样本观测值的残差.即被解释变量的观测值与估计值之差.则随机误差项方差的估计量为:222-=∑n ie μσ(8)证明从略.至此, 普通最小二乘法一元线性回归模型的参数估计问题得到解决.。
第三节 最小二乘估计量的性质三大性质:线性特性、无偏性和最小偏差性 一、 线性特性的含义线性特性是指参数估计值1ˆβ和2ˆβ分别是观测值t Y 或者是扰动项t μ的线性组合,或者叫线性函数,也可以称之为可以用t Y 或者是t μ来表示。
1、2ˆβ的线性特征证明 (1)由2ˆβ的计算公式可得: 222222()ˆt tttt ttttttt tt tt x y x Y x Y xxx xx x x x β--===⎛⎫== ⎪ ⎪⎝⎭∑∑∑∑∑∑∑∑∑∑∑Y Y Y Y需要指出的是,这里用到了因为t x 不全为零,可设2tt tx b x =∑,从而,t b 不全为零,故2ˆt t b β=∑Y 。
这说明2ˆβ是t Y 的线性组合。
(2)因为12t t t Y X ββμ=++,所以有()212122ˆt t t t t t t t t t t tb b X b b X b b βββμββμβμ==++=++=+∑∑∑∑∑∑Y这说明2ˆβ是t μ的线性组合。
需要指出的是,这里用到了220t t t t t x x b x x ===∑∑∑∑∑以及 ()2222222201t t tt t t tt ttttttttx x X x b X X x x x x X x X x x x x x⎛⎫+⎪== ⎪⎝⎭++==+=∑∑∑∑∑∑∑∑∑∑∑∑∑2、1ˆβ的线性特征证明 (1)因为12ˆˆY X ββ=-,所以有 ()121ˆˆ1t t t t tY X Y X b nXb n ββ=-=-⎛⎫=- ⎪⎝⎭∑∑∑Y Y这里,令1a Xb n=-,则有1ˆt a β=∑Y 这说明1ˆβ是t Y 的线性组合。
(2)因为回归模型为12t t t Y X ββμ=++,所以()11212ˆt t t t t t t t t ta a X a a X a βββμββμ==++=++∑∑∑∑∑Y因为111t t t a Xb X b nn⎛⎫=-=-=⎪⎝⎭∑∑∑∑。
最小二乘估计的几个结论及证明(1) 假设拟合函数 $y=f(x; \theta)$ (其中$\theta$是一些估计参数),假设有一组n个数据点$x_i$和它们对应的观测值$y_i$。
最小二乘估计的结论是:设 $\widehat{\theta}$ 是最小二乘估计量,即$ \widehat{\theta}=\min_{\theta \in \Theta} \sum_{i=1}^n (y_i-f(x_i;\theta))^2 $那么有:$E[(\widehat{\theta}-\theta)^2]=\min_{\theta \in \Theta}E[(\widehat{\theta}-\theta)^2]$证明:对$\theta$求导,得到:$\frac{\partial \sum_{i=1}^n (y_i-f(x_i;\theta))^2}{\partial \theta}=2\sum_{i=1}^n (y_i-f(x_i;\theta))(-\frac{\partialf(x_i;\theta)}{\partial \theta})=0$即$\sum_{i=1}^n (y_i-f(x_i;\theta))(-\frac{\partialf(x_i;\theta)}{\partial \theta})=0$它等价于$\sum_{i=1}^n (y_i-f(x_i;\theta))\frac{\partialf(x_i;\theta)}{\partial \theta}=0$也就是说$\frac{\partial \sum_{i=1}^n (y_i-f(x_i;\theta))^2}{\partial \theta}=0$,即极值解$\widehat{\theta}$ 满足$\sum_{i=1}^n (y_i-f(x_i;\widehat{\theta}))^2=min$。
令$f_0(x;\theta)=\sum_{i=1}^n (y_i-f(x_i;\theta))^2$,则$E[(\widehat{\theta}-\theta)^2]=E[f_0(\widehat{\theta}-\theta)]$是$\theta$的二阶凸函数,这样$E[(\widehat{\theta}-\theta)^2]$的局部最小值就是全局最小值,即$E[(\widehat{\theta}-\theta)^2]=\min_{\theta \in \Theta} E[(\widehat{\theta}-\theta)^2]$。
最小二乘参数估计量的几何意义
最小二乘参数估计量的几何意义是在数据点中找到一条最优拟合
曲线或平面,使得数据点到该曲线或平面的距离平方和最小。
这个距
离平方和表示了数据点与拟合曲线或平面之间的误差。
参数估计量的几何意义是通过调整拟合曲线或平面的参数,使得
曲线或平面与数据点尽可能地接近,从而得到最小的误差。
具体而言,对于一维情况下的最小二乘拟合,参数估计量就是直线的斜率和截距。
通过调整这两个参数,可以使得直线与数据点之间的距离平方和最小。
在二维或多维情况下,参数估计量对应的是一个拟合平面或超平
面的系数。
通过适当调整这些系数,可以找到一个平面或超平面,使
得数据点在该平面或超平面上的投影与原始数据点最为接近。
因此,最小二乘参数估计量的几何意义是通过寻找最优的拟合曲
线或平面,来描述数据点的整体趋势,并通过调整拟合参数来降低数
据与拟合之间的误差。