当前位置：文档之家› 机器学习算法系列(2)：线性回归

机器学习算法系列(2)：线性回归

线性回归假设特征和结果满?足线性关系。其实线性关系的表达能?力力?非常强?大，每个特征对结果的影响强弱可以由前?面的参数体现，?而且每个特征变量量可以?首先映射到?一个函数，然后再参与线性计算。这样就可以表达特征与结果之间的?非线性关系。

我们可以有这样的模型表达：

其中，表示?自变量量（特征分量量），表示因变量量，表示对应?自变量量（特征）的权重，是偏倚项（?又称为截距）。

对于参数，在物理理上可以解释为：在?自变量量（特征）之间相互独?立的前提下，反映?自变量量对因变量量的影响程度，越?大，说明对结果的影响越?大。因此，我们可以通过每个?自变量量

（特征）前?面的参数，可以很直观的看出那些特征分量量对结果的影响?比较?大。如果令，可以将上述模型写成向量量形式，即：其中均为向量量，为的转置。

在上述公式中，假设特征空间与输?入空间相同。准确地讲，模型表达式要建?立的是特征空间与结果之间的关系。在?一些应?用场合中，需要将输?入空间映射到特征空间中，然后建模，定义映射

函数为，因此我们可以把公式写成更更通?用的表达公式：特征映射相关技术，包括特征哈希、特征学习、等。

机器?学习算法系列列（2）：线性回归?一、线性回归模型

y =+++···+θ0θ1x 1θ2x 2θn x n

,,···,x 1x 2x n y θi θ0θθi x i y θi x i y =1,y =(x )x 0h θ(x )==x

h θ∑i =0n θi x i θT θ=(,,···,)，x =(1,,,···,)θ0θ1θn x 1x 2x n θT θx Φ(x )(x )=Φ(x )

h θθT Kernel ?二、?目标函数

2.1 ?目标函数

上?面的公式的参数向量量是维的，每个参数的取值是实数集合，也就是说参数向量量在维实数空间中取值结果有?无穷种可能。

那么，如何利利?用?一个规则或机制帮助我们评估求得的参数，并且使得线性模型效果最佳呢？直观地认为，如果求得参数线性求和后，得到的结果与真实值之差越?小越好。

这时我们需要映?入?一个函数来衡量量表示真实值好坏的程度，该函数称为损失函数（loss function ，也称为错误函数）。数学表示如下：

这个损失函数?用的是的预测值与真实值之差的平?方和。如果不不考虑诸如过拟合等其他问题，这就是我们需要优化的?目标函数。

?一般地，机器?学习中不不同的模型会有相应的?目标函数。?而回归模型（尤其是线性回归类）的?目标函数通常?用平?方损失函数来作为优化的?目标函数（即真实值与预测值之差的平?方和）。为什什么要选?用误差平?方和作为?目标函数呢？答案可以从概率论中的中?心极限定理理、?高斯分布等知识中找到。

?目标函数的概率解释需要?用到中?心极限定理理。中?心极限定理理本身就是研究独?立随机变量量和的极限分布为正态分布的问题。

中?心极限定理理的公式表示为：

设个随机变量量相互独?立，均具有相同的数学期望与?方差，即，令为随机变量量之和，有

称随机变量量为个随机变量量的规范和。

它的定义为：

设从均值为、?方差为（有限）的任意?一个总体中抽取样本量量为的样本，当充分?大时，样本均值的抽样分布近似服从于均值为、?方差为的正态分布。θn +1θn +1θθ(x )h θy (x )h θy J (θ)=12∑i =1

((()?))h θx (i )y (i )2J (θ)min θx (i )()h θx (i )y (i )2.2 ?目标函数的概率解释

2.2.1 中?心极限定理理

n ,,···,X 1X 2X n E ()=μ;D ()=X i X i σ2Y n =++···+Y n X 1X 2X n

==→N (0,1)Z n ?E ()Y n Y n D ()Y n ￣￣￣￣￣￣√?n μY n σn ￣

√Z n n ,,···,X 1X 2X n μσ2n n Y n

n μσ2

假设给定?一个输?入样例例根据公式得到预测值与真实值之间存在误差，即为。那么，它们之间的关系表示如下：

?而这?里里假设误差服从标准?高斯分布是合理理的。

解释如下：

回归模型的最终?目标是通过函数表达式建?立?自变量量与结果之间的关系，希望通过能较为准确地表示结果。?而在实际的应?用场合中，很难甚?至不不可能把导致的所有变量量（特征）都找出来，并放到回归模型中。那么模型中存在的通常认为是影响结果最主要的变量量集合（?又称为因?子，在ML 中称为特征集）。根据中?心极限定理理，把那些对结果影响?比较?小的变量量（假设独?立同分布）之和认为服从正态分布是合理理的。

可以?用?一个示例例来说明误差服从?高斯分布是合理理的：

的课程中第?一节线性回归的例例?子中，根据训练数据建?立房屋的?面积与房屋的售价之间的函数表达。

它的数据集把房屋?面积作为最为主要的变量量。除此之外我们还知道房屋所在的地段（地铁、学区、城区、郊区），周边交通状况，当地房价、楼层、采光、绿化?面积等等诸多因素会影响房价。

实际上，因数据收集问题可能拿不不到所有影响房屋售价的变量量，可以假设多个因素变量量相互独?立，根据中?心极限定理理，认为变量量之和服从?高斯分布。即：那么和的条件概率可表示为：

根据上述公式估计得到?一条样本的结果概率，模型的最终?目标是希望在全部样本上预测最准，也就是概率积最?大，这个概率积就是似然函数。优化的?目标函数即为似然函数，表示如下：

2.2.2 ?高斯分布

x (i )θT x (i )y (i )ε(i )=+y (i )θT x (i )ε(i )

ε(i )x y x y y x y AndrewNg x y =??(i )y (i )θT x (i )

x y p (|;θ)=exp (?)

y (i )x (i )1σ2π￣￣￣√(?)y (i )θT x

(i )22σ22.2.3 极?大似然估计与损失函数极?小化等价

L (θ)=exp (?)

max θ∏i =1m 1σ2π￣￣￣√(?)y (i )θT x (i )22σ2

对取对数，可得对数似然函数：

由于都为常数，因此上式等价于

我们可以发现，经过最?大似然估计推导出来的待优化的?目标函数与平?方损失函数是等价的。因此可以得出结论：

线性回归误差平?方损失极?小化与极?大似然估计等价。其实在概率模型中，?目标函数的原函数（或对偶函数）极?小化（或极?大化）与极?大似然估计等价，这是?一个带有普遍性的结论。?比如在最?大熵模型中，有对偶函数极?大化与极?大似然估计等价的结论。

那上?面为什什么是条件概率呢？因为我们希望预测值与真实值更更接近，这就意味着希望求出来的参数，在给定输?入的情况下，得到的预测值等于真实值得可能性越?大越好。?而，均为前提条件，因此?用条件概率表示。即越?大，越能说明估计的越准确。当然也

不不能?一味地只有该条件函数，还要考虑拟合过度以及模型的泛化能?力力问题。如何调整参数使得取得最?小值？?方法有很多，这?里里介绍?几种?比较经典的?方法，即最?小?二乘法、梯度下降法以及?牛顿法。

将个维样本组成矩阵：

则?目标函数的矩阵形式为

L (x )l (θ)=?m log σ?max θ2π￣￣￣√12σ2∑i =1

m (?)y (i )θT x (i )2n ,σmin θ12∑i =1

m (?)y (i )θT x (i )2p (y |x ;θ)θx θx p (y |x ;θ)p (y |x ;θ)三、参数估计

θJ (θ)3.1 最?小?二乘法

3.1.1 ?目标函数的矩阵形式

m n X ???????11···1x (1)1x (1)2···x (1)m x (2)1x (2)2···x (2)m ·········x (n )1x (n )2x (n )m

???????(θ)==(X θ?y )

这是?一个表示参数与?目标函数的关系图，红?色的部分是表示有?比较?高的取值，我们需要的是，能够让的值尽量量的低。也就是深蓝?色的部分。和表示向量量的两个维度。在上?面提到梯度下降法的第?一步是给?一个初值，假设随机给的初值是在图上的?十字点。然后我们将按照梯度下降的?方向进?行行调整，就会使得往更更低的?方向进?行行变化，如图所示，算法的

结束将是在下降到?无法继续下降为?止。当然，可能梯度下降的最终点并?非是全局最?小点，可能是?一个局部最?小点，?比如下?面这张图中描述的就是?一个局部最?小点，这是我们重新选择了了?一个初始点得到的，看来我们这个算法会在很?大程度上被初始点的选择影响?而陷?入局部最?小点。

θJ (θ)J (θ)J (θ)θ0θ1θθθJ (θ)θ

下?面对于?目标函数求偏导数：

下?面是更更新的过程，也就是会向着梯度最?小的?方向进?行行减少。表示更更新之前的值，表示步?长，也就是每次按照梯度减少的?方向变化多少，由于求得是极?小值，因此梯度?方向是偏导数的反

?方向，结果为?一个很重要的地?方值得注意的是，梯度是有?方向的，对于?一个向量量，每?一维分量量都可以求出?一个梯度的?方向，我们就可以找到?一个整体的?方向，在变化的时候，我们就朝着下降最多的?方向

进?行行变化就可以达到?一个最?小点，不不管他是全局的还是局部的。

在对?目标函数求偏导时，可以?用更更简单的数学语?言（倒三?角表示梯度）进?行行描述：J (θ)J (θ)=??θj ??θj 12

((x )?y )h θ2=2·((x )?y )((x )?y )12h θ??θj

h θ=((x )?y )h θx j

θi θa θ:=+a ((x )?y )θj h θx j

θθi J (θ)J =?θ???????J ??θ0······J ??θn ??

?????

将梯度下降法应?用到线性回归有三种?方式：批处理理梯度下降法、随机梯度下降法。

可以看出，参数的值每更更新?一次都要遍历样本集中的所有的样本，得到新的，看是否满?足阈值要求，若满?足，则迭代结束，根据此值就可以得到；否则继续迭代。注意到，虽然梯度下降法易易受到极?小值的影响，但是?一般的线性规划问题只有?一个极?小值，所以梯度下降法?一般可以收敛到全局的最?小值。例例如，是?二次凸函数，则梯度下降法的示意图为：

图中，?一圈上表示?目标函数的函数值类似于地理理上的等?高线，从外圈开始逐渐迭代，最终收敛全局最?小值。

θ:=θ+a J

?θ3.2.1 批量量梯度下降法（BGD ）

θθj J

3.2.2 随机梯度下降算法（SGD）

在这个算法中，我们每次更更新只?用到?一个训练样本，若根据当前严格不不能进?行行迭代得到?一个，此时会得到?一个，有新样本进来之后，在此基础上继续迭代，?又得到?一组新的和，以此类推。

?批量量梯度下降法，每更更新?一次，需要?用到样本集中的所有样本；随机梯度下降法，每更更新?一次，只?用到训练集中的?一个训练样本，所以?一般来说，随机梯度下降法能更更快地使?目标函数达到最?小值（新样本的加?入，随机梯度下降法有可能会使?目标函数突然变?大，迭代过程中在变?小。所以是在全局最?小值附近徘徊，但对于实际应?用俩说，误差完全能满?足要求）。另外，对于批量量梯度下降法，如果样本集增加了了?一些训练样本，就要重新开始迭代。由于以上原因，当训练样本集较?大时，?一般使?用随机梯度下降法。

四、参考资料料

对线性回归，logistic回归和?一般回归的认识