Scaled gradient descent learning rate - Reinforcement learning with light-seeking robot

格式：pdf
大小：376.82 KB
文档页数：8

下载文档原格式

/ 8

机器学习技术中的深度学习模型优化经验分享

机器学习技术中的深度学习模型优化经验分享深度学习模型的优化是机器学习领域中的关键问题之一。

在训练深度神经网络模型时，我们常常遇到训练速度慢、过拟合和泛化能力不足等一系列问题。

本文将分享一些机器学习技术中的深度学习模型优化经验，帮助您更好地优化深度学习模型。

首先，要优化深度学习模型，我们需要选择合适的优化器。

目前最常用的优化算法包括随机梯度下降（Stochastic Gradient Descent，SGD）、动量法（Momentum）、自适应学习率算法（Adaptive Learning Rate Methods）等。

不同的优化算法具有不同的特点，因此我们需要根据具体问题选择合适的优化算法来优化深度学习模型。

其次，模型的超参数选择也十分重要。

超参数是在训练模型之前需要人为设定的参数，如学习率、批量大小（batch size）、正则化参数等。

合理的超参数选择可以帮助我们更快地收敛到较好的模型，并且避免过拟合。

常用的超参数调优方法有网格搜索、随机搜索、贝叶斯优化等。

通过合理的超参数选择，我们可以获得更好的深度学习模型性能。

第三，合适的正则化技术有助于提高模型的泛化能力。

L1正则化和L2正则化是最常用的正则化技术。

L1正则化通过加入L1范数惩罚项来实现模型的稀疏性，可以过滤掉不重要的特征，提高模型的鲁棒性。

L2正则化通过加入L2范数惩罚项来限制模型的权重大小，防止过拟合。

此外，还有一些正则化技术如Dropout、Batch Normalization等也可以帮助提高模型的泛化能力。

此外，数据预处理也是优化深度学习模型的重要步骤之一。

对原始数据进行标准化、归一化、缺失值处理等预处理操作，可以去除数据的噪声，使得模型更容易学习到数据中的规律。

特别是在图像处理任务中，常常需要对图像进行裁剪、旋转、平移等增强操作，以增加数据的多样性，提高模型的泛化能力。

最后，模型的结构设计也是优化深度学习模型的关键。

深度学习模型的结构设计需要兼顾模型的表达能力和计算效率。

梯度下降法实验报告

梯度下降法实验报告梯度下降法是一种优化算法，常用于机器学习中的参数优化问题。

本次实验旨在通过使用梯度下降法求解线性回归模型的参数，加深对算法的理解和实践。

实验过程分为以下几步：1. 数据准备为了方便起见，我们从sklearn库中导入波士顿房价数据集，共506条样本，13个特征和1个目标值即房价。

2. 模型搭建我们使用线性回归模型来进行预测，其公式为 y = Wx+b，其中y为预测值，W和b为要求解的模型参数，x为输入的特征向量。

在此之前，我们需要对数据进行归一化处理，保证各维度特征之间的比较公平。

3. 损失函数设计我们使用均方误差（mean squared error，MSE）作为模型的损失函数，其公式为：$\frac{1}{n}\sum_{i=1}^{n}{(y_i-\hat{y}_i)^2}$，其中$n$为样本数，$y_i$为真实值，$\hat{y}_i$为预测值。

我们的目标是最小化损失函数。

4. 梯度计算通过对损失函数求导，可以得到每个参数的梯度值，即损失函数对参数的变化率。

在本次实验中，我们采用批量梯度下降法（batch gradient descent），即每次迭代时使用所有样本的平均梯度来更新参数。

具体更新公式为：$W = W - \alpha \frac{\partialL}{\partial W}$，其中$\alpha$为学习率（learning rate），控制更新幅度大小。

5. 参数求解按照迭代次数，反复进行梯度计算和参数更新，直到模型收敛（即损失函数不再明显降低）。

下面是完整的实验代码：```import numpy as npfrom sklearn.datasets import load_bostonfrom sklearn.preprocessing import StandardScaler# 数据准备data = load_boston()x = data.datay = data.target# 归一化处理scaler = StandardScaler()x = scaler.fit_transform(x)# 模型搭建W = np.zeros(x.shape[1]) # 初始化权重b = np.zeros(1) # 初始化偏置learning_rate = 0.001 # 学习率num_epochs = 1000 # 迭代次数# 损失函数设计def mse_loss(y_true, y_pred):return np.mean((y_true - y_pred) ** 2)# 梯度计算def grad(x, y_true, y_pred):dw = np.dot(x.T, y_pred - y_true) / len(x)db = np.mean(y_pred - y_true)return dw, db# 模型训练for epoch in range(num_epochs):y_pred = np.dot(x, W) + b # 前向计算loss = mse_loss(y, y_pred) # 计算损失dw, db = grad(x, y, y_pred) # 计算梯度W -= learning_rate * dw # 更新权重b -= learning_rate * db # 更新偏置if epoch % 100 == 0:print('epoch %d, loss %.4f' % (epoch, loss))# 测试模型x_test = np.array([[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 1.1, 1.2, 1.3]])x_test = scaler.transform(x_test)y_test = np.dot(x_test, W) + bprint('predicted value:', y_test)```运行结果如下：```epoch 0, loss 592.1469epoch 100, loss 28.8471epoch 200, loss 25.0884epoch 300, loss 22.4019epoch 400, loss 20.1854epoch 500, loss 18.3634epoch 600, loss 16.8751epoch 700, loss 15.6636epoch 800, loss 14.6823epoch 900, loss 13.8919predicted value: [[23.32270733]]```从运行结果中可以看出，经过1000次迭代后，模型的损失值稳定在较低水平，预测值也接近真实值。

各种优化器Optimizer的总结与比较

各种优化器Optimizer的总结与⽐较1.梯度下降法(Gradient Descent) 梯度下降法是最基本的⼀类优化器，⽬前主要分为三种梯度下降法：标准梯度下降法(GD, Gradient Descent) 随机梯度下降法(SGD, Stochastic Gradient Descent) 批量梯度下降法(BGD, Batch Gradient Descent) class tf.train.GradientDescentOptimizer 使⽤梯度下降算法的Optimizer tf.train.GradientDescentOptimizer(0.2).minimize(loss) 标准梯度下降法(GD) 假设要学习训练的模型参数为W，代价函数为J(W)，则代价函数关于模型参数的偏导数即相关梯度为ΔJ(W)，学习率为ηt，则使⽤梯度下降法更新参数为其中，Wt表⽰tt时刻的模型参数从表达式来看，模型参数的更新调整，与代价函数关于模型参数的梯度有关，即沿着梯度的⽅向不断减⼩模型参数，从⽽最⼩化代价函数基本策略可以理解为”在有限视距内寻找最快路径下⼭“，因此每⾛⼀步，参考当前位置最陡的⽅向(即梯度)进⽽迈出下⼀步评价：标准梯度下降法主要有两个缺点: 训练速度慢：每⾛⼀步都要要计算调整下⼀步的⽅向，下⼭的速度变慢在应⽤于⼤型数据集中，每输⼊⼀个样本都要更新⼀次参数，且每次迭代都要遍历所有的样本会使得训练过程及其缓慢，需要花费很长时间才能得到收敛解容易陷⼊局部最优解：由于是在有限视距内寻找下⼭的反向当陷⼊平坦的洼地，会误以为到达了⼭地的最低点，从⽽不会继续往下⾛所谓的局部最优解就是鞍点。

落⼊鞍点，梯度为0，使得模型参数不在继续更新批量梯度下降法(BGD) 假设批量训练样本总数为nn，每次输⼊和输出的样本分别为X(i),Y(i)，模型参数为W，代价函数为J(W) 每输⼊⼀个样本ii代价函数关于W的梯度为ΔJi(Wt,X(i),Y(i))，学习率为ηt，则使⽤批量梯度下降法更新参数表达式为其中，WtWt表⽰tt时刻的模型参数从表达式来看，模型参数的调整更新与全部输⼊样本的代价函数的和（即批量/全局误差）有关。

梯度下降的公式

梯度下降的公式梯度下降（Gradient Descent）是一种优化算法，常用于机器学习和深度学习中的模型训练过程。

其公式如下：θ = θ - α * ∇J(θ)其中：- θ 表示模型的参数，是我们要优化的目标；- α 是学习率（Learning Rate），控制每次迭代的步长，即更新参数的幅度；- ∇J(θ) 表示损失函数J(θ) 对参数θ 的梯度（Gradient），它是目标函数在当前参数点的导数，给出了J(θ) 在当前点的变化趋势和速度。

梯度下降通过不断更新参数θ 来寻找损失函数J(θ) 的极小值点，从而使模型的预测结果与真实值之间的误差最小化。

在每次迭代中，通过计算梯度∇J(θ) 来确定参数更新的方向，然后根据学习率α 调整步长，最终求得最优的参数θ。

梯度下降的公式可以进一步展开，根据参数的类型和问题的具体形式而有所不同。

以下是常见的梯度下降公式：1. 批量梯度下降（Batch Gradient Descent）：* 参数更新公式：θ = θ - α * ∇J(θ)* 梯度计算公式：∇J(θ) = 1/m * Σ(hθ(xi) - yi) * xi其中，m 是训练样本的数量，xi 是第 i 个训练样本的特征向量，yi 是对应的真实标签，hθ(xi) 是模型对 xi 的预测值。

2. 随机梯度下降（Stochastic Gradient Descent）：* 参数更新公式：θ = θ - α * ∇J(θ, xi, yi)* 梯度计算公式：∇J(θ, xi, yi) = (hθ(xi) - yi) * xi与批量梯度下降不同的是，随机梯度下降每次只利用一个样本来计算梯度并更新参数。

∇J(θ, xi, yi)是对于单个样本的梯度计算。

3. 小批量梯度下降（Mini-batch Gradient Descent）：* 参数更新公式：θ = θ - α * ∇J(θ, xi, yi)* 梯度计算公式：∇J(θ, xi, yi) = 1/b * Σ(hθ(xi) - yi) * xi小批量梯度下降是批量梯度下降和随机梯度下降的折中，每次使用 b 个样本来计算梯度并更新参数。

梯度下降法例题

梯度下降法（Gradient Descent）是一种常用的优化算法，可用于求解函数的最小值或最大值。

在机器学习和深度学习中，梯度下降法常被用于参数的更新和模型的训练，是深度学习背后重要的优化方法。

梯度下降法的基本原理是通过迭代的方式，找到函数的最小值或最大值。

它利用函数的梯度信息（导数）来确定每一步的移动方向和步长，并沿着负梯度方向进行参数的更新，直到达到最优解或达到迭代次数的上限。

梯度下降法有两种常用的变体，分别是批量梯度下降法（Batch Gradient Descent）和随机梯度下降法（Stochastic Gradient Descent）。

批量梯度下降法是计算所有样本的梯度，并使用其平均值来更新参数。

它在每个迭代步骤时都要计算所有样本的梯度，所以计算成本较高。

然而，批量梯度下降法通常会收敛到全局最优解（如果存在），因为它在更新参数时利用了所有样本的信息。

随机梯度下降法则是每次仅使用一个样本的梯度来更新参数。

相比于批量梯度下降法，它的计算成本较低，并且可以进行在线学习（online learning），即对每个样本进行快速的参数更新。

然而，由于每次只使用一个样本的梯度，随机梯度下降法的移动方向可能不是最优的，因此它可能无法收敛到全局最优解。

为了兼顾两种算法的优点，还有一种折中的方法，称为小批量梯度下降法（Mini-batch Gradient Descent）。

它是介于批量梯度下降法和随机梯度下降法之间的方法，每次更新参数时使用一批样本的梯度。

这样可以减少计算成本，并更好地捕捉样本的整体特征。

小批量梯度下降法常被用于深度学习模型训练中。

梯度下降法的学习率（learning rate）是一个重要的超参数，它决定了每一步更新的幅度。

学习率过大会导致参数在更新过程中跳过最优解，无法收敛；而学习率过小则会导致收敛速度过慢，需要更多的迭代步骤才能达到最优解。

因此，选择合适的学习率对梯度下降法的性能至关重要。

简明易懂的深度学习入门教程

简明易懂的深度学习入门教程深度学习是人工智能中的一种重要技术手段，其通过模仿人脑神经元的工作方式，构建神经网络，从而实现对大规模数据进行学习和分析的能力。

本文将从简明易懂的角度，介绍深度学习的入门知识，包括：基本概念、常用网络结构和训练方法。

一、基本概念深度学习是机器学习领域的一个分支，其核心是神经网络模型。

神经网络由多个神经元组成，每个神经元接收来自其他神经元的输入，再通过激活函数进行运算，并将结果传递给下一个神经元。

深度学习模型通常包含多个隐藏层，每个隐藏层由多个神经元组成，最终通过输出层给出预测结果。

二、常用网络结构1. 感知机（Perceptron）：是最简单的神经网络结构，由一个输入层和一个输出层组成。

感知机广泛应用于二分类问题。

2. 多层感知机（Multi-Layer Perceptron, MLP）：在感知机的基础上增加了一个或多个隐藏层，提高了对复杂问题的拟合能力，是最基本的深度学习模型。

3. 卷积神经网络（Convolutional Neural Network, CNN）：主要用于图像识别任务，通过局部感受野和权值共享的方式，减少了网络参数的数量，提高了网络的计算效率。

4. 循环神经网络（Recurrent Neural Network, RNN）：主要用于处理序列数据，通过使用循环结构将当前神经元的输出作为下一个神经元的输入，从而实现对时序信息的建模。

5. 长短期记忆网络（Long Short-Term Memory, LSTM）：是一种特殊的循环神经网络，通过门控机制，实现对长期记忆和短期记忆的建模。

三、常用训练方法1. 反向传播算法（Backpropagation）：是深度学习中最常用的训练方法，通过计算预测值与实际值之间的误差，将误差沿网络反向传播，并根据误差大小更新网络中的参数。

2. 随机梯度下降（Stochastic Gradient Descent, SGD）：是一种常用的优化算法，通过迭代地更新参数值，寻找使目标函数最小化的方向。

梯度下降常见算法BGD,SGD,MBGD简介

梯度下降常见算法BGD,SGD,MBGD简介参考⽂献梯度下降 GD(Gradient Descent)梯度⽅向是函数变化率最⼤的⽅向，是函数增长最快的⽅向。

梯度的反⽅向是函数减少的最快⽅向。

ex: 从⼭上⾛到⾕底x(i+1) j=x(i)j−η⋅∂f∂x j(x(i)), 对i>0. 表⽰第j个参数，第i次迭代。

其中η为learning rate常见变形有：BGD，SGD，MBGD等等BGD（Batch Gradient Descent）对整个训练集计算损失函数对参数的梯度：θ=θ−η⋅▽θJ(θ)对于⾮凸函数得局部极⼩值和鞍点处，会停⽌更新，不会震荡。

缺点：训练集可能有相似的样本，整个训练集都算⼀次就会很慢且有冗余。

for i in range ( nb_epochs ):params_grad = evaluate_gradient ( loss_function , data , params )params = params - learning_rate * params_gradSGD (Stochastic Gradient Descent)⼀次只进⾏⼀次更新，没有冗余，⽐较快，可以新增样本。

缺点：噪声⽐BGD多，不是每次迭代都向着整体最优的⽅向。

更新频繁，cost function可能严重震荡。

对于⾮凸函数，容易困在局部极⼩值或鞍点处，来回震荡。

for i in range ( nb_epochs ):np . random . shuffle ( data )for example in data :params_grad = evaluate_gradient ( loss_function , example , params )params = params - learning_rate * params_gradMBCG(Mini-Batch Gradient Descent)每次利⽤⼀⼩批的样本，利⽤n个样本进⾏计算。

如何提高卷积神经网络的训练速度

如何提高卷积神经网络的训练速度随着深度学习的快速发展，卷积神经网络（Convolutional Neural Network，CNN）已成为图像处理和模式识别领域的重要工具。

然而，训练一个复杂的CNN 模型通常需要大量的时间和计算资源。

因此，提高卷积神经网络的训练速度成为了研究人员关注的焦点之一。

本文将介绍几种提高卷积神经网络训练速度的方法。

首先，使用GPU加速是提高卷积神经网络训练速度的一种重要方法。

相比于传统的CPU，GPU具有更强大的并行计算能力，可以同时处理大量的计算任务。

通过将CNN模型的计算过程转移到GPU上进行加速，可以显著减少训练时间。

当然，为了充分利用GPU的并行计算能力，需要合理设计CNN模型的计算图，减少数据之间的依赖关系，提高并行计算的效率。

其次，使用批量归一化（Batch Normalization）技术也可以提高卷积神经网络的训练速度。

批量归一化是一种在训练过程中对神经网络的中间层进行归一化处理的方法。

通过将每一层的输入进行归一化，可以加速网络的收敛速度，提高训练速度。

此外，批量归一化还可以增加网络的鲁棒性，减少模型的过拟合现象，提高模型的泛化能力。

另外，使用更高效的优化算法也是提高卷积神经网络训练速度的关键。

传统的优化算法如随机梯度下降（Stochastic Gradient Descent，SGD）在训练大规模CNN 模型时存在收敛速度慢、易陷入局部最优等问题。

近年来，研究人员提出了一系列更高效的优化算法，如动量法（Momentum）、自适应学习率方法（Adaptive Learning Rate）等。

这些算法通过引入动量项、自适应调整学习率等策略，可以加速模型的收敛过程，提高训练速度。

此外，数据增强（Data Augmentation）也是提高卷积神经网络训练速度的一种有效方法。

数据增强是通过对训练数据进行随机变换，生成更多的训练样本，从而扩大训练集的规模。

通过增加训练样本的多样性，可以提高模型的泛化能力，减少过拟合现象。

机器学习技术中的梯度下降与随机梯度下降算法性能比较与应用案例

机器学习技术中的梯度下降与随机梯度下降算法性能比较与应用案例梯度下降（Gradient Descent）和随机梯度下降（Stochastic Gradient Descent）是在机器学习中常用的优化算法。

它们被广泛应用于各种机器学习任务中，如线性回归、逻辑回归、深度神经网络等。

本文将比较这两种算法的性能，并介绍它们在实际应用中的案例。

首先，我们来了解梯度下降算法。

梯度下降是一种迭代优化算法，旨在找到一个函数的最小值，通过迭代更新参数，使目标函数逐渐收敛。

在每次迭代中，梯度下降算法计算函数在当前点的梯度，并以负梯度方向调整参数值。

这样，算法将逐步朝着最优解的方向迭代，直到收敛于最优解。

相比之下，随机梯度下降算法则是一种更加高效的优化算法。

随机梯度下降在每次迭代时，不再计算全部样本的梯度，而是仅仅选取一个随机样本计算梯度并更新参数。

因此，随机梯度下降的计算开销相对较小，迭代速度更快。

尽管每次迭代的方向可能会有一些波动，但在长时间的迭代过程中，随机梯度下降也能找到接近最优解的解。

梯度下降和随机梯度下降算法的选择取决于数据集的规模和问题的复杂性。

对于小数据集和参数较少的情况，梯度下降算法常常可以很好地工作。

而对于大规模数据集和高维参数的情况，随机梯度下降算法则更具优势。

此外，随机梯度下降也适用于在线学习场景，在每次迭代中，可以及时处理新的样本并更新模型。

在实际应用中，梯度下降和随机梯度下降算法都有广泛的案例。

以线性回归为例，这是一个求解最小二乘问题的经典机器学习任务。

梯度下降算法可以通过最小化损失函数，求得线性回归模型的最优参数。

而随机梯度下降算法也能应用于线性回归任务中，通过在每次迭代中随机选择一个样本计算梯度，并更新参数。

实际上，随机梯度下降算法对于大规模线性回归问题的求解更加高效。

另一个应用案例是深度神经网络的训练。

深度神经网络通常包含大量的参数和复杂的计算图结构。

对于这种复杂模型，梯度下降算法会面临较大的计算负担，而随机梯度下降算法则能够更快地逼近最优解。

机器学习模型的在线学习与增量学习方法研究

机器学习模型的在线学习与增量学习方法研究引言随着大数据时代的到来，机器学习模型在各个领域中的应用越来越广泛。

然而，传统的机器学习模型往往需要离线训练，并且需要对整个数据集进行重新训练，这在面对动态环境中的实时数据时显得不够灵活和高效。

因此，研究在线学习与增量学习方法成为目前机器学习领域的一个热点问题。

本文将探讨在线学习与增量学习方法的研究，并结合实际案例分析其优势和挑战。

一、在线学习方法在线学习是指模型能够动态地从实时数据中进行学习和更新。

相比传统的批量学习方法，在线学习具有以下优势：1. 实时性：在线学习允许模型实时地从新数据中学习，使得模型能够随时适应变化的环境。

2. 节约计算资源：在线学习只需要处理当前的数据样本，不需要重新训练整个模型，因此可以节约计算资源。

3. 收敛性：在线学习可以针对不同的数据样本采用不同的学习率，使得模型能够更快地收敛。

常用的在线学习算法包括随机梯度下降（Stochastic Gradient Descent, SGD）算法、Adaptive Learning Rate等。

这些算法能够通过不断地调整模型参数来适应变化的数据。

二、增量学习方法增量学习是指模型能够从新加入的数据样本中进行学习而无需重新训练已有的模型。

与在线学习不同的是，增量学习更注重的是如何在不遗忘已有知识的情况下，利用新数据进行模型的更新。

增量学习方法的优点主要包括：1. 资源效率：增量学习避免了重复计算已有数据的过程，从而节约了计算资源。

2. 知识保存：增量学习能够保留已有的模型知识，对新增加的数据进行增量学习而无需重新学习已有的数据。

3. 新旧知识平衡：增量学习通过动态调整权重来保持新旧知识的平衡，从而使得模型能够适应不断变化的数据。

常见的增量学习算法包括Elastic Weight Consolidation算法、Random Forest等。

这些算法能够从新数据中学习，并根据需要进行知识融合和模型更新。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

NT LEARNING
In gradient descent learning, the free parameters of a model are gradually modified so that the difference between the output given by a model and the corresponding “correct” or target value becomes as small as possible for all training samples available. In such supervised learning, each training sample consists of input values and the corresponding target values. Real-world training samples typically involve noise, which means that it is not possible to obtain a model that would give the exact target value for all training samples. The goal of learning is rather to minimize a statistical error measure, e.g. the Root Mean Square Error (RMSE)
Keywords:
Linear function approximation, Gradient descent, Learning rate, Reinforcement learning, Light-seeking robot Adaptive behaviour through machine learning is challenging in many real-world applications such as robotics. This is because learning has to be rapid enough to be performed in real time and to avoid damage to the robot. Models using linear function approximation are interesting in such tasks because they offer rapid learning and have small memory and processing requirements. Adalines are a simple model for gradient descent learning with linear function approximation. However, the performance of gradient descent learning even with a linear model greatly depends on identifying a good value for the learning rate to use. In this paper it is shown that the learning rate should be scaled as a function of the current input values. A scaled learning rate makes it possible to avoid weight oscillations without slowing down learning. The advantages of using the scaled learning rate are illustrated using a robot that learns to navigate towards a light source. This light-seeking robot performs a Reinforcement Learning task, where the robot collects training samples by exploring the environment, i.e. taking actions and learning from their result by a trialand-error procedure.
SCALED GRADIENT DESCENT LEARNING RATE
Reinforcement learning with light-seeking robot
Kary Främling
Helsinki University of Technology, P.O. Box 5400, FI-02015 HUT, Finland. Email: Kary.Framling@hut.fi
state of the environment (such tasks are called hidden state tasks). This is one of the reasons for using state generalization techniques instead of lookup-tables. Generalisation in RL is based on the assumption that an action that is good in some state is probably good also in “similar” states. Various classification techniques have been used for identifying similar states. Some kind of ANN is typically used for the generalisation. ANNs can handle any state descriptions, not only discrete ones. Therefore they are well adapted for problems involving continuous-valued state variables and noise, which is usually the case in robotics applications.
Abstract:
1 INTRODUCTION
The use of machine learning in real-world control applications is challenging. Real-world tasks, such as those using real robots, involve noise coming from sensors, non-deterministic actions and uncontrollable changes in the environment. In robotics, experiments are also longer than simulated ones, so learning must be relatively rapid and possible to perform without causing damage to the robot. Only information that is available from robot sensors can be used for learning. This means that the learning methods have to be able to handle partially missing information and sensor noise, which may be difficult to take into account in simulated environments. Artificial neural networks (ANN) are a wellknown technique for machine learning in noisy environments. In real robotics applications, however, ANN learning may become too slow to be practical, especially if the robot has to explore the environment and collect training samples by itself. Learning by autonomous exploration of the environment by a learning agent is often performed using reinforcement learning (RL) methods. Due to these requirements, one-layer linear function approximation ANNs (often called Adalines
(Widrow & Hoff, 1960)) are an interesting alternative. Their training is much faster than for non-linear ANNs and their convergence properties are also better. Finally, they have small memoryand computing power requirements. However, when Adaline inputs come from sensors that give values of different magnitude, it becomes difficult to determine what learning rate to use in order to avoid weight oscillation. Furthermore, as shown in the experiments section of this paper, using a fixed learning rate may be problematic also because the optimal learning rate changes depending on the state of the agent and the environment. This is why the use of a scaled learning rate is proposed, where the learning rate value is modified according to Adaline input values. The scaled learning rate makes learning steps of similar magnitude independently of the input values. It is also significantly easier to determine a suitable value for the scaled learning rate than it is for a fixed learning rate. After this introduction, Section 2 gives background information about gradient descent learning and RL. Section 3 defines the scaled learning rate, followed by experimental results in Section 4. Related work is treated in Section 5, followed by conclusions.