当前位置:文档之家› 机器学习算法系列(2):线性回归

机器学习算法系列(2):线性回归

机器学习算法系列(2):线性回归
机器学习算法系列(2):线性回归

线性回归假设特征和结果满?足线性关系。其实线性关系的表达能?力力?非常强?大,每个特征对结果的影响强弱可以由前?面的参数体现,?而且每个特征变量量可以?首先映射到?一个函数,然后再参与线性计算。这样就可以表达特征与结果之间的?非线性关系。

我们可以有这样的模型表达:

其中,表示?自变量量(特征分量量),表示因变量量,表示对应?自变量量(特征)的权重,是偏倚项(?又称为截距)。

对于参数,在物理理上可以解释为:在?自变量量(特征)之间相互独?立的前提下,反映?自变量量对因变量量的影响程度,越?大,说明对结果的影响越?大。因此,我们可以通过每个?自变量量

(特征)前?面的参数,可以很直观的看出那些特征分量量对结果的影响?比较?大。如果令,可以将上述模型写成向量量形式,即:其中均为向量量,为的转置。

在上述公式中,假设特征空间与输?入空间相同。准确地讲,模型表达式要建?立的是特征空间与结果之间的关系。在?一些应?用场合中,需要将输?入空间映射到特征空间中,然后建模,定义映射

函数为,因此我们可以把公式写成更更通?用的表达公式:特征映射相关技术,包括特征哈希、特征学习、等。

机器?学习算法系列列(2):线性回归?一、线性回归模型

y =+++···+θ0θ1x 1θ2x 2θn x n

,,···,x 1x 2x n y θi θ0θθi x i y θi x i y =1,y =(x )x 0h θ(x )==x

h θ∑i =0n θi x i θT θ=(,,···,),x =(1,,,···,)θ0θ1θn x 1x 2x n θT θx Φ(x )(x )=Φ(x )

h θθT Kernel ?二、?目标函数

2.1 ?目标函数

上?面的公式的参数向量量是维的,每个参数的取值是实数集合,也就是说参数向量量在维实数空间中取值结果有?无穷种可能。

那么,如何利利?用?一个规则或机制帮助我们评估求得的参数,并且使得线性模型效果最佳呢?直观地认为,如果求得参数线性求和后,得到的结果与真实值之差越?小越好。

这时我们需要映?入?一个函数来衡量量表示真实值好坏的程度,该函数称为损失函数(loss function ,也称为错误函数)。数学表示如下:

这个损失函数?用的是的预测值与真实值之差的平?方和。如果不不考虑诸如过拟合等其他问题,这就是我们需要优化的?目标函数。

?一般地,机器?学习中不不同的模型会有相应的?目标函数。?而回归模型(尤其是线性回归类)的?目标函数通常?用平?方损失函数来作为优化的?目标函数(即真实值与预测值之差的平?方和)。为什什么要选?用误差平?方和作为?目标函数呢?答案可以从概率论中的中?心极限定理理、?高斯分布等知识中找到。

?目标函数的概率解释需要?用到中?心极限定理理。中?心极限定理理本身就是研究独?立随机变量量和的极限分布为正态分布的问题。

中?心极限定理理的公式表示为:

设个随机变量量相互独?立,均具有相同的数学期望与?方差,即,令为随机变量量之和,有

称随机变量量为个随机变量量的规范和。

它的定义为:

设从均值为、?方差为(有限)的任意?一个总体中抽取样本量量为的样本,当充分?大时,样本均值的抽样分布近似服从于均值为、?方差为的正态分布。θn +1θn +1θθ(x )h θy (x )h θy J (θ)=12∑i =1

n

((()?))h θx (i )y (i )2J (θ)min θx (i )()h θx (i )y (i )2.2 ?目标函数的概率解释

2.2.1 中?心极限定理理

n ,,···,X 1X 2X n E ()=μ;D ()=X i X i σ2Y n =++···+Y n X 1X 2X n

==→N (0,1)Z n ?E ()Y n Y n D ()Y n  ̄ ̄ ̄ ̄ ̄ ̄√?n μY n σn  ̄

√Z n n ,,···,X 1X 2X n μσ2n n Y n

n μσ2

假设给定?一个输?入样例例根据公式得到预测值与真实值之间存在误差,即为。那么,它们之间的关系表示如下:

?而这?里里假设误差服从标准?高斯分布是合理理的。

解释如下:

回归模型的最终?目标是通过函数表达式建?立?自变量量与结果之间的关系,希望通过能较为准确地表示结果。?而在实际的应?用场合中,很难甚?至不不可能把导致的所有变量量(特征)都找出来,并放到回归模型中。那么模型中存在的通常认为是影响结果最主要的变量量集合(?又称为因?子,在ML 中称为特征集)。根据中?心极限定理理,把那些对结果影响?比较?小的变量量(假设独?立同分布)之和认为服从正态分布是合理理的。

可以?用?一个示例例来说明误差服从?高斯分布是合理理的:

的课程中第?一节线性回归的例例?子中,根据训练数据建?立房屋的?面积与房屋的售价之间的函数表达。

它的数据集把房屋?面积作为最为主要的变量量。除此之外我们还知道房屋所在的地段(地铁、学区、城区、郊区),周边交通状况,当地房价、楼层、采光、绿化?面积等等诸多因素会影响房价。

实际上,因数据收集问题可能拿不不到所有影响房屋售价的变量量,可以假设多个因素变量量相互独?立,根据中?心极限定理理,认为变量量之和服从?高斯分布。即:那么和的条件概率可表示为:

根据上述公式估计得到?一条样本的结果概率,模型的最终?目标是希望在全部样本上预测最准,也就是概率积最?大,这个概率积就是似然函数。优化的?目标函数即为似然函数,表示如下:

2.2.2 ?高斯分布

x (i )θT x (i )y (i )ε(i )=+y (i )θT x (i )ε(i )

ε(i )x y x y y x y AndrewNg x y =??(i )y (i )θT x (i )

x y p (|;θ)=exp (?)

y (i )x (i )1σ2π ̄ ̄ ̄√(?)y (i )θT x

(i )22σ22.2.3 极?大似然估计与损失函数极?小化等价

L (θ)=exp (?)

max θ∏i =1m 1σ2π ̄ ̄ ̄√(?)y (i )θT x (i )22σ2

对取对数,可得对数似然函数:

由于都为常数,因此上式等价于

我们可以发现,经过最?大似然估计推导出来的待优化的?目标函数与平?方损失函数是等价的。因此可以得出结论:

线性回归误差平?方损失极?小化与极?大似然估计等价。其实在概率模型中,?目标函数的原函数(或对偶函数)极?小化(或极?大化)与极?大似然估计等价,这是?一个带有普遍性的结论。?比如在最?大熵模型中,有对偶函数极?大化与极?大似然估计等价的结论。

那上?面为什什么是条件概率呢?因为我们希望预测值与真实值更更接近,这就意味着希望求出来的参数,在给定输?入的情况下,得到的预测值等于真实值得可能性越?大越好。?而,均为前提条件,因此?用条件概率表示。即越?大,越能说明估计的越准确。当然也

不不能?一味地只有该条件函数,还要考虑拟合过度以及模型的泛化能?力力问题。如何调整参数使得取得最?小值??方法有很多,这?里里介绍?几种?比较经典的?方法,即最?小?二乘法、梯度下降法以及?牛顿法。

将个维样本组成矩阵:

则?目标函数的矩阵形式为

L (x )l (θ)=?m log σ?max θ2π ̄ ̄ ̄√12σ2∑i =1

m (?)y (i )θT x (i )2n ,σmin θ12∑i =1

m (?)y (i )θT x (i )2p (y |x ;θ)θx θx p (y |x ;θ)p (y |x ;θ)三、参数估计

θJ (θ)3.1 最?小?二乘法

3.1.1 ?目标函数的矩阵形式

m n X ???????11···1x (1)1x (1)2···x (1)m x (2)1x (2)2···x (2)m ·········x (n )1x (n )2x (n )m

???????(θ)==(X θ?y )

m

?

这是?一个表示参数与?目标函数的关系图,红?色的部分是表示有?比较?高的取值,我们需要的是,能够让的值尽量量的低。也就是深蓝?色的部分。和表示向量量的两个维度。在上?面提到梯度下降法的第?一步是给?一个初值,假设随机给的初值是在图上的?十字点。然后我们将按照梯度下降的?方向进?行行调整,就会使得往更更低的?方向进?行行变化,如图所示,算法的

结束将是在下降到?无法继续下降为?止。当然,可能梯度下降的最终点并?非是全局最?小点,可能是?一个局部最?小点,?比如下?面这张图中描述的就是?一个局部最?小点,这是我们重新选择了了?一个初始点得到的,看来我们这个算法会在很?大程度上被初始点的选择影响?而陷?入局部最?小点。

θJ (θ)J (θ)J (θ)θ0θ1θθθJ (θ)θ

?

下?面对于?目标函数求偏导数:

下?面是更更新的过程,也就是会向着梯度最?小的?方向进?行行减少。表示更更新之前的值,表示步?长,也就是每次按照梯度减少的?方向变化多少,由于求得是极?小值,因此梯度?方向是偏导数的反

?方向,结果为?一个很重要的地?方值得注意的是,梯度是有?方向的,对于?一个向量量,每?一维分量量都可以求出?一个梯度的?方向,我们就可以找到?一个整体的?方向,在变化的时候,我们就朝着下降最多的?方向

进?行行变化就可以达到?一个最?小点,不不管他是全局的还是局部的。

在对?目标函数求偏导时,可以?用更更简单的数学语?言(倒三?角表示梯度)进?行行描述:J (θ)J (θ)=??θj ??θj 12

((x )?y )h θ2=2·((x )?y )((x )?y )12h θ??θj

h θ=((x )?y )h θx j

θi θa θ:=+a ((x )?y )θj h θx j

θθi J (θ)J =?θ???????J ??θ0······J ??θn ??

?????

将梯度下降法应?用到线性回归有三种?方式:批处理理梯度下降法、随机梯度下降法。

?

可以看出,参数的值每更更新?一次都要遍历样本集中的所有的样本,得到新的,看是否满?足阈值要求,若满?足,则迭代结束,根据此值就可以得到;否则继续迭代。注意到,虽然梯度下降法易易受到极?小值的影响,但是?一般的线性规划问题只有?一个极?小值,所以梯度下降法?一般可以收敛到全局的最?小值。例例如,是?二次凸函数,则梯度下降法的示意图为:

?

图中,?一圈上表示?目标函数的函数值类似于地理理上的等?高线,从外圈开始逐渐迭代,最终收敛全局最?小值。

θ:=θ+a J

?θ3.2.1 批量量梯度下降法(BGD )

θθj J

3.2.2 随机梯度下降算法(SGD)

?

在这个算法中,我们每次更更新只?用到?一个训练样本,若根据当前严格不不能进?行行迭代得到?一个,此时会得到?一个,有新样本进来之后,在此基础上继续迭代,?又得到?一组新的和,以此类推。

?批量量梯度下降法,每更更新?一次,需要?用到样本集中的所有样本;随机梯度下降法,每更更新?一次,只?用到训练集中的?一个训练样本,所以?一般来说,随机梯度下降法能更更快地使?目标函数达到最?小值(新样本的加?入,随机梯度下降法有可能会使?目标函数突然变?大,迭代过程中在变?小。所以是在全局最?小值附近徘徊,但对于实际应?用俩说,误差完全能满?足要求)。另外,对于批量量梯度下降法,如果样本集增加了了?一些训练样本,就要重新开始迭代。由于以上原因,当训练样本集较?大时,?一般使?用随机梯度下降法。

四、参考资料料

对线性回归,logistic回归和?一般回归的认识

相关主题
文本预览
相关文档 最新文档