机器学习中的优化算法综述

格式：pdf
大小：1.56 MB
文档页数：45

下载文档原格式

/ 45

机器学习算法与模型的优化与改进

机器学习算法与模型的优化与改进机器学习（Machine Learning）是人工智能领域中重要的分支之一，主要是通过计算机程序从数据中学习规律，提高模型预测能力。

机器学习广泛应用于数据挖掘、推荐系统、自然语言处理、计算机视觉等领域。

在机器学习中，算法和模型的优化与改进是非常重要的课题。

一、机器学习算法的优化机器学习算法的优化可以从两个方面入手：提高算法准确性和提高算法效率。

1、提高算法准确性提高算法准确性是机器学习的核心目标之一，因为精度是衡量机器学习算法好坏的重要指标之一。

一个常用的方法就是增加训练数据，从而提高算法准确性。

数据的多样性和数量都能够影响算法的准确性。

此外，优化数据预处理和特征工程，也能够提高算法的准确率。

2、提高算法效率提高算法效率也是机器学习算法的重要目标之一。

效率的提高可以从算法的复杂度、计算的数量和运行时间入手。

通常可以通过构建更加简单高效的模型、算法选取、降维等方法来提高算法的效率。

二、机器学习模型的优化机器学习模型的优化是机器学习团队研究的一个主要课题，优化的目标是提高模型的泛化能力和预测准确率。

1、提高模型泛化能力提高模型泛化能力是机器学习模型优化的重要方向之一。

模型的泛化能力是指模型在处理未知数据时的表现能力，在测试集和生产环境中的表现就是衡量它的泛化能力的重要指标之一。

提高模型泛化能力有以下几方面的方法：（1）数据增强：通过对现有的训练数据进行数据增强的操作，比如旋转、翻转、缩放等，从而扩大数据集，提高泛化能力。

（2）正则化：增强模型的泛化能力，可采用L1正则化，L2正则化等等。

（3）交叉验证：通过划分训练集和测试集，并交叉验证，提高泛化能力。

2、提高模型预测准确率提高模型预测准确率是机器学习模型优化的另一个重要目标。

针对不同的机器学习算法，有不同的优化方法。

（1）神经网络优化：优化神经网络的模型结构，比如增加层数、增加节点等。

这些操作可以增加模型的表达能力，提高预测准确率。

机器学习模型的优化方法

机器学习模型的优化方法机器学习是一种利用计算机和数理统计学方法来实现自动化学习的过程，是人工智能的重要组成部分。

而机器学习模型的优化方法则是机器学习领域的核心问题之一。

在机器学习中，优化方法是指选择合适的算法来动态地调整模型参数，从而让模型更好地拟合数据集，提高模型的预测能力。

目前，机器学习模型的优化方法主要有以下几种：一、梯度下降优化算法梯度下降算法是一种常用的优化算法，其核心思想是通过沿着损失函数梯度的反方向进行参数的调整。

具体来说，就是在每次迭代的过程中，计算出损失函数对每一个参数的偏导数，再将其乘以一个常数步长，更新参数。

通过不断迭代，梯度下降算法可以逐渐将损失函数最小化，从而得到最优参数。

二、随机梯度下降优化算法与梯度下降算法不同，随机梯度下降算法在每一次迭代中，只采用一个随机样本来计算梯度并更新参数。

虽然这种方法会带来一些噪声，但是它可以显著减少计算开销，加速迭代过程。

此外，随机梯度下降算法也不容易陷入局部最优解，因为每次迭代都是基于一个随机样本的。

三、牛顿法牛顿法是一种基于二阶导数信息的优化算法，它可以更快地收敛到局部最优解。

具体来说，就是在每一次迭代过程中，对损失函数进行二阶泰勒展开，将其转化为一个二次方程，并求解其最小值。

虽然牛顿法在求解高维模型时计算开销比较大，但是在处理低维稠密模型时可以大幅提高迭代速度。

四、拟牛顿法拟牛顿法是一种基于梯度信息的优化算法，它通过近似构造损失函数的Hessian矩阵来进行迭代。

具体来说，拟牛顿法在每一次迭代过程中，利用历史参数和梯度信息来逐步构造一个近似的Hessian矩阵，并将其用于下一步的参数更新。

相比于牛顿法，拟牛顿法不需要精确计算Hessian矩阵，因此更适合处理高维稀疏模型。

在实际应用中，根据不同的场景和需求，可以选择不同的优化算法来优化机器学习模型。

需要注意的是，优化算法的选择并非唯一的，需要根据具体情况进行综合考虑。

此外，还可以通过调整迭代步长、设置合适的正则化项等手段来进一步提高模型的性能。

机器学习中的迭代方法与优化算法介绍

机器学习中的迭代方法与优化算法介绍迭代方法与优化算法对于机器学习的应用至关重要。

在机器学习中，我们常常面临着需要通过大量数据学习出模型的问题。

而通过迭代方法和优化算法，我们可以有效地提升机器学习算法的准确性和效率。

迭代方法在机器学习中的应用广泛，它的基本思想是通过多次迭代来逐步改进模型的性能。

在每一次迭代中，我们根据当前模型的表现，调整模型的参数或者特征，然后再次运行模型进行训练和预测。

通过不断迭代的过程，我们可以使模型逐渐收敛到一个更好的状态。

在迭代方法中，优化算法起到了至关重要的作用。

优化算法的目标是找到模型参数的最优解，使得模型在给定的数据集上能够达到最佳的性能。

常见的优化算法包括梯度下降、牛顿法、拟牛顿法等。

梯度下降是一种常用的优化算法，它通过计算目标函数对参数的梯度来进行迭代更新。

具体来说，我们在每一次迭代中，根据梯度的方向和大小，更新参数的取值。

梯度下降算法有批量梯度下降（BGD）、随机梯度下降（SGD）和小批量梯度下降（MBGD）等变种。

BGD在每一次迭代中，使用所有的样本来计算梯度，因此计算效率较低；SGD则是每次只使用一个样本来计算梯度，计算效率较高，但收敛速度较慢；MBGD则是在每次迭代中，使用一部分样本来计算梯度，权衡了计算效率和收敛速度。

除了梯度下降算法，牛顿法和拟牛顿法也是常用的优化算法。

牛顿法通过计算目标函数的一阶导数和二阶导数来进行迭代优化。

相比于梯度下降算法，牛顿法的收敛速度较快。

但是牛顿法也存在一些问题，比如需要计算目标函数的二阶导数，计算复杂度较高，并且在高维空间中的效果可能不佳。

为了克服这些问题，拟牛顿法被提出。

拟牛顿法通过逼近目标函数的二阶导数来进行迭代优化，兼具了牛顿法的优势，同时避免了计算二阶导数的困难。

除了上述介绍的迭代方法和优化算法，还有许多其他的方法被应用在机器学习中，比如坐标下降法、共轭梯度法、L-BFGS等。

这些方法适用于不同类型的问题和模型，通过选择合适的优化算法，可以有效提升机器学习算法的性能。

机器学习模型的调优与超参数搜索方法研究综述

机器学习模型的调优与超参数搜索方法研究综述引言：机器学习的发展给许多领域带来了巨大的影响与突破。

然而，为了获得良好的机器学习模型，调优与超参数搜索就显得非常重要。

本文将综述机器学习模型的调优方法及常用的超参数搜索方法，旨在为研究者提供参考和指导，优化模型性能并提高预测准确性。

一、机器学习模型的调优方法1. 数据清洗与预处理在进行机器学习建模之前，数据清洗与预处理是必要的步骤。

这些步骤包括数据去重、处理缺失值、异常值处理、特征选择与提取等。

通过清洗与预处理，可以提高数据的质量和准确性。

2. 特征工程特征工程是指对原始数据进行转换和提取，以便更好地适配机器学习算法。

特征工程的方法包括特征选择、特征变换和特征生成。

通过合理选择和处理特征，可以提高模型的性能并降低过拟合的风险。

3. 模型选择与构建在机器学习中，选择适合具体任务的模型非常重要。

常见的机器学习模型包括线性回归、决策树、支持向量机、随机森林等。

根据任务需求和数据特点选择合适的模型，并进行模型的构建与训练。

4. 模型评估与选择模型评估是指对构建的模型进行评估和选择。

常用的评估指标包括准确率、精确率、召回率、F1值等。

通过对模型的评估，可以选择表现最好的模型进行后续的调优和应用。

二、超参数搜索方法1. 网格搜索网格搜索是最基本也是最常用的超参数搜索方法之一。

它通过指定每个超参数的候选值，遍历所有可能的组合，选择表现最好的参数组合。

虽然网格搜索简单直观，但是在参数空间较大时会带来较高的计算成本。

2. 随机搜索随机搜索是一种替代网格搜索的方法。

它以随机的方式从给定的超参数空间中采样，选择一组超参数进行评估。

这种方法相对于网格搜索可以减少计算成本，并且在参数空间较大时表现更好。

3. 贝叶斯优化贝叶斯优化是一种基于贝叶斯定理的优化方法。

它通过构建模型来建立参数和模型性能之间的映射关系，并根据不断的模型评估结果来更新模型。

贝叶斯优化可以在有限的迭代次数内找到全局最优解，适用于连续型和离散型参数的优化。

机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

机器学习中⼏种优化算法的⽐较（SGD、Momentum、RMSProp、Adam）有关各种优化算法的详细算法流程和公式可以参考【】，讲解⽐较清晰，这⾥说⼀下⾃⼰对他们之间关系的理解。

BGD 与 SGD⾸先，最简单的 BGD 以整个训练集的梯度和作为更新⽅向，缺点是速度慢，⼀个 epoch 只能更新⼀次模型参数。

SGD 就是⽤来解决这个问题的，以每个样本的梯度作为更新⽅向，更新次数更频繁。

但有两个缺点：更新⽅向不稳定、波动很⼤。

因为单个样本有很⼤的随机性，单样本的梯度不能指⽰参数优化的⼤⽅向。

所有参数的学习率相同，这并不合理，因为有些参数不需要频繁变化，⽽有些参数则需要频繁学习改进。

第⼀个问题Mini-batch SGD 和 Momentum 算法做出的改进主要是⽤来解决第⼀个问题。

Mini-batch SGD 算法使⽤⼀⼩批样本的梯度和作为更新⽅向，有效地稳定了更新⽅向。

Momentum 算法则设置了动量（momentum）的概念，可以理解为惯性，使当前梯度⼩幅影响优化⽅向，⽽不是完全决定优化⽅向。

也起到了减⼩波动的效果。

第⼆个问题AdaGrad 算法做出的改进⽤来解决第⼆个问题，其记录了每个参数的历史梯度平⽅和（平⽅是 element-wise 的），并以此表征每个参数变化的剧烈程度，继⽽⾃适应地为变化剧烈的参数选择更⼩的学习率。

但 AdaGrad 有⼀个缺点，即随着时间的累积每个参数的历史梯度平⽅和都会变得巨⼤，使得所有参数的学习率都急剧缩⼩。

RMSProp 算法解决了这个问题，其采⽤了⼀种递推递减的形式来记录历史梯度平⽅和，可以观察其表达式：早期的历史梯度平⽅和会逐渐失去影响⼒，系数逐渐衰减。

Adam简单来讲 Adam 算法就是综合了 Momentum 和 RMSProp 的⼀种算法，其既记录了历史梯度均值作为动量，⼜考虑了历史梯度平⽅和实现各个参数的学习率⾃适应调整，解决了 SGD 的上述两个问题。

机器学习算法的参数调优方法

机器学习算法的参数调优方法机器学习算法的参数调优是提高模型性能和泛化能力的关键步骤。

在机器学习过程中，正确选择和调整算法的参数可以显著影响模型的预测准确性和鲁棒性。

本文将介绍一些常见的机器学习算法的参数调优方法，以帮助您优化您的模型。

1. 网格搜索(Grid Search)网格搜索是最常用和直观的参数调优方法之一。

它通过穷举地尝试所有可能的参数组合，找到在给定评价指标下最好的参数组合。

具体而言，网格搜索将定义一个参数网格，其中包含要调整的每个参数及其可能的取值。

然后，通过遍历参数网格中的所有参数组合，评估每个组合的性能，并选择具有最佳性能的参数组合。

网格搜索的优点是简单易用，并且能够覆盖所有可能的参数组合。

然而，由于穷举搜索的复杂性，当参数的数量较多或参数取值范围较大时，网格搜索的计算代价将变得非常高。

2. 随机搜索(Random Search)随机搜索是一种更高效的参数调优方法。

与网格搜索不同，随机搜索不需要遍历所有可能的参数组合，而是通过在参数空间内随机选择参数组合来进行评估。

这种方法更适用于参数空间较大的情况，因为它可以更快地对参数进行搜索和评估。

随机搜索的主要优势是它可以更高效地搜索参数空间，特别是在目标参数与性能之间没有明确的关系时。

然而，随机搜索可能无法找到全局最佳参数组合，因为它没有对参数空间进行全面覆盖。

3. 贝叶斯优化(Bayesian Optimization)贝叶斯优化是一种通过构建模型来优化目标函数的参数调优方法。

它通过根据已经评估过的参数组合的结果来更新对目标函数的概率模型。

然后，通过在参数空间中选择具有高期望改进的参数组合来进行评估。

这种方法有效地利用了先前观察到的信息，并且可以在相对较少的试验次数中找到最佳参数组合。

贝叶斯优化的优点是可以自适应地根据先前的观察结果进行参数选择，并在较少的试验次数中达到较好的性能。

然而，贝叶斯优化的计算代价较高，并且对于大规模数据集可能会面临挑战。

机器学习技术中的迭代算法与优化技巧

机器学习技术中的迭代算法与优化技巧机器学习技术中的迭代算法与优化技巧是现代人工智能领域的重要组成部分。

迭代算法被广泛应用于各种机器学习任务，如分类、回归、聚类等。

通过迭代算法和优化技巧，机器学习模型可以不断优化自身，提升预测精度和性能。

迭代算法的核心思想是通过反复迭代来逐步逼近目标函数的最优解。

在机器学习中，通常会选择使用梯度下降等迭代优化算法来最小化损失函数。

梯度下降算法通过不断更新模型参数，使得模型能够逐渐趋向于最优解。

然而，在实际应用中，简单的梯度下降算法可能面临收敛速度慢、局部最优解等问题。

为了解决这些问题，研究者们提出了一系列优化技巧，以加速迭代过程并改善模型性能。

其中之一是学习率调度。

学习率即参数更新的步长，合理的学习率可以减少迭代次数，加快收敛速度。

学习率调度包括固定学习率、衰减学习率和自适应学习率等。

固定学习率适用于简单的问题，但对于复杂问题，衰减学习率或自适应学习率更能获得更好的效果。

另一个重要的优化技巧是正则化。

正则化主要用于解决过拟合问题，通过在损失函数中添加正则化项，惩罚过大的模型参数，使其不过分依赖于训练数据，提高模型的泛化性能。

常见的正则化方法有L1正则化和L2正则化。

L1正则化可以产生稀疏模型，即使得一些特征的权重变为零，从而实现特征选择的作用。

而L2正则化可以平滑模型参数，更加鲁棒。

此外，优化技巧还包括随机梯度下降、批量梯度下降和小批量梯度下降等。

随机梯度下降每次随机选择一个样本进行梯度更新，计算速度快但不稳定。

批量梯度下降每次使用全部样本计算梯度，能够获得全局最优解，但计算开销较大。

小批量梯度下降则折中了两者的优缺点，使用一小部分样本计算梯度，既节省了计算开销又提高了稳定性。

除了上述优化技巧，还有很多其他的方法可以进一步提升机器学习模型的性能，例如动量法、自适应优化算法（如Adam、RMSProp）等。

这些方法都是为了更好地解决机器学习中的优化问题，提高模型的学习能力和泛化能力。

机器学习中的梯度下降和Adam优化算法

机器学习中的梯度下降和Adam优化算法随着人工智能的不断发展，机器学习算法成为了许多领域中不可或缺的一部分。

而在机器学习的算法中，梯度下降和Adam优化算法十分重要，本文将对二者进行详细介绍。

一、梯度下降算法梯度下降算法是一种迭代算法，用于优化目标函数。

它是通过不断计算函数的梯度来沿着目标函数的最陡峭方向寻找最优解的过程。

在机器学习中，我们通常使用梯度下降算法来求解最小化损失函数的参数。

梯度下降算法有三种形式：批量(Batch)梯度下降、随机(Stochastic)梯度下降和小批量(Mini-batch)梯度下降。

1.1 批量梯度下降算法批量梯度下降算法会在每一次迭代中使用全部训练数据集进行运算，然后根据梯度的反向传播更新参数。

但是，批量梯度下降算法的缺点是计算速度慢。

当数据集很大时，需要很多计算能力和内存空间才能处理，一次迭代需要耗费大量时间和资源。

1.2 随机梯度下降算法随机梯度下降算法不使用全部的训练数据集进行运算，而是在每一次迭代时随机选择一个数据进行运算。

对于其中每个数据的更新来说，具有很好的随机性，从而能够达到良好的代替。

但是，随机梯度下降算法的缺点是运算速度快，但存在一定的不稳定性和噪声，容易陷入局部最优解或不收敛。

1.3 小批量梯度下降算法小批量梯度下降算法介于批量梯度下降算法和随机梯度下降算法之间。

它每次处理多个数据，通常在10-1000个数据之间。

因此，可以利用较小数量的训练数据集进行运算，节省了计算时间和内存资源，同时也降低了不稳定性和噪声。

二、Adam优化算法Adam优化算法是目前最流行的优化算法之一，它基于梯度下降算法并结合了RMSprop和Momentum优化算法的思想。

它不仅可以根据之前的自适应动态调整学习率，而且可以自适应地计算每个参数的学习率。

Adam优化算法的更新公式如下：$$t = t + 1$$$$g_{t} = \nabla_{\theta} J(\theta)$$$$m_{t} = \beta_1 m_{t-1} + (1 - \beta_1) g_{t}$$$$v_{t} = \beta_2 v_{t-1} + (1 - \beta_2) g_{t}^2$$$$\hat{m}_{t} = \dfrac{m_{t}}{1 - \beta_1^t}$$$$\hat{v}_{t} = \dfrac{v_{t}}{1 - \beta_2^t}$$$$\theta_{t+1} = \theta_{t} - \dfrac{\alpha}{\sqrt{\hat{v}_{t}} +\epsilon} \hat{m}_{t}$$其中，$g_{t}$是当前梯度，$m_{t}$和$v_{t}$分别表示当前的一阶和二阶矩估计，$\beta_1$和$\beta_2$是平滑参数，$\hat{m}_{t}$和$\hat{v}_{t}$是对一阶和二阶矩的偏差校正，$\alpha$是学习速率，$\epsilon$是防止除数为零的数值稳定项。

几种仿生优化算法综述

几种仿生优化算法综述随着人工智能和机器学习领域的发展，优化算法在解决各种问题中扮演着重要角色。

而仿生优化算法是众多优化算法之一，其灵感来源于自然界中各种生物的生存策略。

本文将对几种常见的仿生优化算法进行综述。

1. 遗传算法遗传算法是基于遗传学和进化论理论的优化算法。

该算法利用自然选择、交叉和突变等操作作为主要算子来生成优化解。

该算法适用于那些没有显式数学模型或复杂的非线性目标函数的情况。

遗传算法已被广泛应用于组合优化，函数优化，机器学习等领域。

2. 粒子群优化算法粒子群优化算法仿照鸟群和鱼群等天然集体行为的方式来搜索最优解。

每个粒子表示一个潜在的优化解，并在搜索空间中移动。

每个粒子的移动速度和方向通过当前的最优解和群体最优解来确定。

该算法在连续优化、非线性问题、复杂约束问题中表现出了很好的性能。

3. 人工鱼群算法人工鱼群算法是一种基于鱼群行为的优化算法。

算法中包含一个鱼群，每个鱼代表一个解，并通过寻找食物来更新其位置。

在搜索过程中，鱼可以根据当前的环境和周围鱼的行为来调整其移动方向。

该算法可以应用于连续优化、离散优化和多目标优化等问题中。

4. 蚁群算法蚁群算法模拟了蚂蚁寻找食物的行为。

在该算法中，每个蚂蚁的行为对整个群体的行为有影响。

蚂蚁会通过移动、放置信息素和蒸发信息素等方式在搜索空间中寻找最优解。

该算法已被成功应用于组合优化、连续优化和离散优化等问题中。

5. 免疫算法免疫算法是一种基于生物免疫的优化算法。

该算法包括抗体和克隆算法。

抗体代表优化解，而克隆算法用于生成新的解。

克隆算法通常会在好的解附近产生更多的解，以加速搜索过程。

该算法已被广泛应用于组合优化、连续优化和多目标优化等领域。

总之，各种仿生优化算法都有不同的优势和适用范围。

在实际应用中，我们可以根据问题特点选择适宜的算法来解决问题。

机器学习模型优化方法的研究综述

机器学习模型优化方法的研究综述引言近年来，机器学习在各个领域中得到广泛应用，成为解决复杂问题和提升决策效果的重要工具。

然而，随着数据规模和模型复杂度的增加，如何优化机器学习模型成为一个亟待解决的问题。

本文将综述当前机器学习模型的优化方法，包括传统方法和新兴方法，并分析其优势和局限性，为优化机器学习模型提供指导。

一、传统优化方法1. 梯度下降法梯度下降法是一种常用的优化方法，通过计算损失函数的梯度，反向更新模型参数，以最小化损失。

基于梯度下降法，衍生出多种变种算法，如随机梯度下降、批量梯度下降等。

这些算法在训练速度和性能方面取得了一定的优化效果，但也存在一些问题，如参数收敛速度慢、易陷入局部最优等。

2. 牛顿法牛顿法是一种基于二阶导数信息的优化方法，它通过计算目标函数的二阶导数矩阵的逆来更新模型参数。

相比梯度下降法，牛顿法收敛速度更快，并且可以更准确地找到全局最优解。

然而，牛顿法的计算复杂度较高，并且需要对目标函数进行二阶导数的计算，对于大规模数据和复杂模型来说，计算成本非常高。

3. 正则化正则化方法通过在目标函数中加入正则项，限制模型的复杂度，以防止过拟合现象的发生。

常见的正则化方法包括L1正则化和L2正则化。

L1正则化通过将模型参数的绝对值作为正则项，促使模型的稀疏性。

L2正则化则通过将模型参数的平方和作为正则项，使模型参数尽量接近零。

正则化方法能够有效提升模型的泛化能力，防止过拟合，但也会引入一定的偏差。

二、新兴优化方法1. 深度学习优化方法深度学习作为最近研究的热点领域，为机器学习模型优化带来了新的思路和方法。

其中，基于梯度的优化方法是深度学习中应用最广泛的方法之一。

通过使用反向传播算法计算梯度，并结合学习率调整策略，深度学习模型能够在高维度问题中迅速收敛，取得较好的优化效果。

此外，还有基于牛顿法的优化方法，如拟牛顿法，通过近似计算目标函数的二阶导数，加速模型的优化过程。

2. 元学习元学习是机器学习中的一种新兴方法，旨在通过学习优化算法的策略，使模型能够更快、更准确地适应新任务。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

IPAM Summer School 2012
Tutorial on
Optimization methods for machine learning
Jorge Nocedal
Northwestern University
Overview 1. We discuss some characteristics of optimization problems arising in deep learning, convex logistic regression and inverse covariance estimation. 2. There are many tools at our disposal: first and second order methods; batch and stochastic algorithms; regularization; primal and dual approaches; parallel computing 3. Yet the state of affairs with neural nets is confusing to me: too many challenges are confronted at once: local vs local minima, nonlinearity, stochasticity, initializations, heuristics
pk = −rk + β k pk−1
p Ark βk = T pk −1 Apk −1
T k −1
Only product Apk is needed Hessian-free
Choose some initial point: x0 Initial direction: p0 = −r0 For x0 = 0, -r0 = b
6
Part I Problem Characteristics and Second Order Methods
7
Nonlinearity, Ill Conditioning Neural nets are far more nonlinear than the functions minimized in many other applications Farabet The rate of convergence of an optimization algorithm is still important even though in practice one stops the iteration far from a minimizer”
Problem: min f (x)
(Hessian Free)
∇ 2 f (xk )p = −∇f (xk ) xk +1 = xk + α p
- This is a linear system of equations of size n - Apply the Conjugate Gradient (CG) method to compute an approximate solution to this system - CG is an iterative method endowed with very interesting properties (optimal Krylov method) - Hessian need not be computed explicitly - Continuum between 1st and 2nd order methods
4
My Background Most of my practical experience in optimization methods for machine learning is for speech recognition (Google) But I am aware of many tests done in a variety of machine learning applications due to my involvement in L-BFGS, Newton-CG methods (Hessian-free), dynamic sampling methods, etc I am interested in designing new optimization methods for machine applications, in particular for deep learning
Interaction between CG and Newton
We noted -r = b if x0 = 0
For the linear system
∇ 2 f (xk )p = −∇f (xk ) Ax = b r = Ax −b → b = − ∇f (xk )
Conclusion: if we terminate the CG algorithm after 1 iteration we obtain a steepest descent step
3
Organization I will discuss a few of optimization techniques and provide some insights into their strengths and weaknesses We will contrast the deterministic and stochastic settings. This motivates dynamic sample selection methods We emphasize the need for general purpose techniques, second order methods and scale invariance, vs heuristics
The conjugate gradient method
Two equivalent problems
1 T min φ (x) = x Ax − bT x ∇φ (x) = Ax − b 2 solve Ax = b r = Ax − b
Newton-CG: the Convex Case
∇ 2 f (xk )p = −∇f (xk )
- We show below that any number of CG iterations yield a productive step - Not true of other iterative methods - better direction and length than 1st order methods
8
An objective function (Le,…Ng)
9
General Formulation
1 m min J (w) = ∑ (w;(zi , yi )) + ν || w ||1 m i =1
(z i , y i ) training data zi vector of features;
Difficult to choose γ . Trust region method learns γ
The Nonconvex Case: Alternatives
Replace ∇ 2 f (xk ) by a positive definite approximation Bp = −∇f (x0 ) Option 1: Gauss-Newton Matrix J(xk )J(xk )T Option 2: Stop CG early - negative curvature Option 3: Trust region approach
1
n Newton
Steepest descent
Rates of Convergence – Scale Invariance
The rate of convergence can be: linear superlinear quadratic depending on the accuracy of the CG solution • It inherits some of the scale invariance properties of the exact Newton method: affine change of variables x ← Dx
Let λ1 ≤ λ2 ≤ ... ≤ λn be the eigenvalues of ∇ 2 f (x0 ). Then the eigenvalues of [∇ 2 f (x0 ) + γ I ] are: λ1 + γ ≤ λ2 + γ ≤ ... ≤ λn + γ
Newton-CG Framework
Theorem (Newton-CG with any number of CG steps) Suppose that f is strictly convex. Consider the iteration ∇ 2 f (xk )p = −∇f (xk ) + r xk +1 = xk + α p where α is chosen by a backtracking Armijo line search. Then {xk } → x*
2
Open Questions We need to isolate questions related to optimization, and study them in a controlled setting A key question is to understand the properties of stochastic vs batch methods in the context of deep learning. After some clarity is obtained, we need to develop appropriate algorithms and work complexity bounds, both in a sequential and a parallel setting