当前位置：文档之家› 深度神经网络全面概述

深度神经网络全面概述

深度神经网络全面概述从基本概念到实际模型和硬件基础

深度神经网络(DNN)所代表的人工智能技术被认为是这一次技术变革的基石(之一)。近日，由IEEE Fellow Joel Emer 领导的一个团队发布了一篇题为《深度神经网络的有效处理：教程和调研(Efficient Processing of Deep Neural Networks: A Tutorial and Survey)》的综述论文，从算法、模型、硬件和架构等多个角度对深度神经网络进行了较为全面的梳理和总结。鉴于该论文的篇幅较长，机器之心在此文中提炼了原论文的主干和部分重要内容。

目前，包括计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络(deep neural networks，DNN)。DNN 在很多人工智能任务之中表现出了当前最佳的准确度，但同时也存在着计算复杂度高的问题。因此，那些能帮助DNN 高

效处理并提升效率和吞吐量，同时又无损于表现准确度或不会增加硬件成本的技术是在人工智能系统之中广泛部署DNN 的关键。

论文地址：

本文旨在提供一个关于实现DNN 的有效处理(efficient processing)的目标的最新进展的全面性教程和调查。特别地，本文还给出

了一个DNN 综述——讨论了支持DNN 的多种平台和架构，并强调了最新的有效处理的技术的关键趋势，这些技术或者只是通过改善硬件设计或者同时改善硬件设计和网络算法以降低DNN 计算成本。本文也会对帮助研究者和从业者快速上手DNN 设计的开发资源做一个总结，并凸显重要的基准指标和设计考量以评估数量快速增长的DNN 硬件设计，还包括学界和产业界共同推荐的算法联合设计。

读者将从本文中了解到以下概念：理解DNN 的关键设计考量;通过基准和对比指标评估不同的DNN 硬件实现;理解不同架构和平台之间的权衡;评估不同DNN 有效处理技术的设计有效性;理解最新的实现趋势和机遇。

一、导语

深度神经网络(DNN)目前是许多人工智能应用的基础[1]。由于DNN 在语音识别[2] 和图像识别[3] 上的突破性应用，使用DNN 的应用量有了爆炸性的增长。这些DNN 被部署到了从自动驾驶汽车[4]、癌症检测[5] 到复杂游戏[6] 等各种应用中。

在这许多领域中，DNN 能够超越人类的准确率。而DNN 的出众表现源于它能使用统计学习方法从原始感官数据中提取高层特征，在大量的数据中获得输入空间的有效表征。这与之前使用手动提取特征或专家设计规则的方法不同。

然而DNN 获得出众准确率的代价是高计算复杂性成本。虽然通用计算引擎(尤其是GPU)，已经成为许多DNN 处理的砥柱，

但提供对DNN 计算更专门化的加速方法也越来越热门。本文的目标是提供对DNN、理解DNN 行为的各种工具、有效加速计算的各项技术的概述。

该论文的结构如下：

?Section II 给出了DNN 为什么很重要的背景、历史和应用。

?Section III 给出了DNN 基础组件的概述，还有目前流行使用的DNN 模型。

?Section IV 描述了DNN 研发所能用到的各种资源。

?Section V 描述了处理DNN 用到的各种硬件平台，以及在不影响准确率的情况下改进吞吐量(thoughtput)和能量的各种优化方法(即产生bit-wise identical 结果)。

?Section VI 讨论了混合信号回路和新的存储技术如何被用于近数据处理(near-data processing)，从而解决DNN 中数据流通时面临的吞吐量和能量消耗难题。

?Section VII 描述了各种用来改进DNN 吞吐量和能耗的联合算法和硬件优化，同时最小化对准确率的影响。

?Section VIII 描述了对比DNN 设计时应该考虑的关键标准。

二、深度神经网络(DNN)的背景

在这一部分，我们将描述深度神经网络(DNN)在人工智能这个大框架下的位置，以及一些促进其发展的的概念。我们还将对其主要的发展历程和现阶段主要的应用领域做一个简单的介绍。

1. 人工智能和深度神经网络

根据John McCarthy 的论述，深度神经网络(也称为深度学习)是人工智能(AI)大框架下的一部分。而人工智能(AI)是利用科学与工程学创造具有如同人类那样能实现目标的智能机器。人工智能这个词就是这位计算机科学家在上个世纪50 年代所创造出的。深度学习和整个人工智能的关系就如下图所示。

图1：深度学习在人工智能大框架下的位置

2. 神经网络和深度神经网络(DNN)

神经网络从神经元涉及对输入值求加权和进行计算这一概念而获得灵感。这些加权和对应于突触完成值的缩放以及其和神经元值间的组合。此外，因为计算与神经元级联相关联，并且其为简单线性代数的运算，所以神经元不会仅仅输出加权和。相反，在神经元中有函数执行组合输入的运算，而这种函数应该是非线性运算。在非线性运算的过程中，神经元只有在输入超过一定阀值时才生成输出。因此通过类比，神经网络将非线性函数运用到输入值的加权和中。我们等一下会描述一些非线性函数。

图2：简单的神经网络例子。(a) 神经元和突触，(b) 为每一层计算加权和，(c) 前向和反向(循环)网络，(d) 全连接与稀疏

(a)中展示了计算神经网络的示意图。图的前端是输入层，该层会接受输入数据值。这些数据值前向传播到神经网络中间层的神经元中，中间层也常称为神经网络的隐藏层。一个或多个隐藏层的加权和最终前向传播到输出层，该输出层会最终向用户呈现神经网络的输出结果。为了将脑启发的术语和神经网络相匹配，神经元的输出通常称为激活(activation)，并且突触如(a)所示通常称为权重(weight)。

在上方表达式中，W_ij 代表着权重、x_i 为输入激活、y_i 是输出激活，而f(·) 就代表着在III-2 中描述的非线性激活函数。

在神经网络的领域内，有一门称为深度学习的研究。普通神经网络基本上层级不会很多，而在深度学习里，神经网络的层级数量十分巨大，现如今基本上神经网络可以达到5 到1000 多层。

3. 推理vs 训练

这一节中，如图4 所示，我们将把图像分类用作训练DNN 的一个强劲的实例。评估DNN 时，我们输入一个图像，DNN 为每一个对象分类输出分值向量;分值最高的分类将成为图像中最有可能的对象分类。训练DNN 的总体目标是决定如何设置权重以最大化正确分类(来自标注的训练数据)的分值并最小化其他不正确分类的分值。理想的正确分值与DNN 基于其当前权重计算的分值之间的差被称为损失值(L)。因此训练DNN 的目标是找到一组权重以最小化大型数据集中的平均损失值。

图4：图像分类任务

4. 开发历史

?1940 年代- 神经网络被提出

?1960 年代- 深度神经网络被提出

?1989 年- 识别数字的神经网(LeNet)出现

?1990 年代- 浅层神经网硬件出现(Intel ETANN)

?2011 年- DNN 语音识别取得突破性进展(Microsoft)

?2012 年- 用于视觉的DNN 开始替代人工放大(AlexNet)

?2014 年+ - DNN 加速器研究兴起(Neuflow、DianNao 等等)

图5 的表柱是这些年来ImageNet 竞赛中每届冠军的表现。你可以看到最初算法精确度的错误率在25% 或更多。2012 年，多伦多大学的AlexNet 团队通过GPU 来提升其计算能力并采用深度神经网络方法，把错误率降低了近10% [3]。他们的成功带来了深度学习风格的算法的井喷，以及图像识别技术的持续进步。

图5：ImageNet 竞赛[10] 结果

5. DNN 的应用

从多媒体到医疗，DNN 对很多应用大有裨益。在这一节中，我们将展示DNN 正在发挥影响的领域，并凸显DNN 有望在未来发挥作用的新兴领域。

?图像和视频

?语音和语言

?医疗

?游戏

?机器人

6. 嵌入vs 云

执行DNN 推断处理的嵌入平台有着严格的能耗、计算和存储成本限制。当DNN 推断在云中执行时，语音识别等应用经常有强烈的延迟需求。因此，在本文中，我们将聚焦于推断处理而不是训练的计算需求。

三、深度神经网络概述

根据应用情况不同，深度神经网络的形态和大小也各异。流行的形态和大小正快速演化以提升模型准确性和效率。所有深度神经网络的输入是一套表征网络将加以分析处理的信息的值。这些值可以是一张图片的像素，或者一段音频的样本振幅或者某系统或者游戏状态的数字化表示。

处理输入的网络有两种主要形式：前馈以及循环(图2c)。前馈网络中，所有计算都是在前一层输出基础上进行的一系列运作。最终一组运行就是网络的输出，比如，这张图片包括某个特定物体的概率是多少，某段音频出现某个单词的概率是多少，或者下一步行动的建议等。在这类深度神经网络中，网络并无记忆，输出也总是与之前网络输入顺序无关。

相反，循环网络(LSTM 是一个很受欢迎的变种)是有内在记忆的，允许长期依存关系影响输出。在这些网络中，一些中间运行生成的值会被存储于网络中，也被用作与处理后一输入有关的其他运算的输入。在这篇文章中，我们关注的是前馈网络，因为到目前为止，少有人关注硬件加速，特别是循环网络的。

深度神经网络也可以是全连接的(FC，也指多层感知器)，如图2(d)最左部分所示。在一个全连接层中，所有输出与所有输入都是相连接的。这需要相当数量的存储和计算空间。谢天谢地，在许多应用中，我们可以移除激活(activations)之间的一些连接，方法就是将权重设置为零而不影响准确性。结果会产生一个稀疏连接层。图2(d)最右端的层就是一个稀疏连接层。

通过限制对结果有影响的权重数量，我们也可以实现更高效的计算。如果每个输出仅仅是一个固定大小输入窗口的函数，就会出现这类结构化稀疏性。如果这套权重被用于每一个输入计算，就会进一步提高效率。这一权重共享能显着降低权重的存储要求。

通过将计算构建为卷积，一种非常流行的窗口式的权重共享的网络诞生了，如图6(a) 所示，其仅使用少量临近的激活来计算加权和的输出(即，该过滤器有一个有限的接受域，与输入的距离超过特定值的所有权重都将被设置为0)，而且这一套权重能被每个输入共享来计算(即，滤波器是空间不变的)。这种结构稀疏性的形式正交于源自网络(修改情况如本文部分VII-B2 所述)的稀疏性。所以，卷积神经网络就是一种受欢迎的深度神经网络形式。

1. 卷积神经网络(CNN)

图6：卷积的维度。(a) 传统图像处理中的二维卷积，(b) CNN 中的高维卷积

图7：卷积神经网络

表1：CONV/FC 层的形状参数

给定表I 中的形状参数(shape parameters)，卷积层的计算可以定义为：

2. 非线性(Non-Linearity)

图8：多种形式的非线性激活函数(来自Caffe Tutorial [43])

3. 池化(Pooling)

图9：多种形式的池化(来自Caffe Tutorial [43])

4. 归一化(Normalization)

控制输入在层级中的分布能显着地加快训练速度并提升准确度。因此，输入激活在层级上的分布(σ, μ)需要归一化处理，使其变换为均值为0、标准差为1 的分布。在批量归一化(batch normalization)中，归一化值如方程(2)所示将进一步缩放和平移，参数(γ, β)是从训练[44] 中学到的两个小常数，它们能避免数值问题。

(1) 流行的DNN 模型

在过去的二十多年里出现了很多种DNN 模型。每一种都称其拥有不同的「网络架构」，因为他们依据不同层级数量、滤波器形状(如过滤尺寸，滤波器和通道的数量)、层级类型以及连接方式而划分。正确地理解这些不同的方法和它们发展的趋势对于提高DNN 引擎的效率至关重要。

其中包括：

?LeNet [9] 于1989 年提出，是最早的CNN 方式之一。其中最为人熟知的是第八版的LeNet-5，其中包含两个卷积层和两个全连接层[45]。

?AlexNet[3] 是第一次赢得ImageNet 挑战赛的CNN 网络(2012 年)。它由五个卷积层和三个全连接层组成。

?Overfeat [46] 与AlexNet 具有非常相似的架构：五个卷积层和三个全连接层。

?VGG-16 [47] 更进一步，使用了16 层的深度神经网络，其中包含13 个卷积层，3 个全连接层。

?GoogLeNet[48] 更深，有22 个层，它首次引入了起始模块(见下图)。

?ResNet [11]，即残差网络(Residual Net)，使用残差连接可以让层级更加深入(34 层以上)。该网络第一次让DNN 在ImageNet 挑战赛中的表现超过了人类，top-5 错误率在5% 以下。

图11：GoogleNet[48] 的起始模块(Inception module)通道长度实例，其中每个CONV 层在ReLU 层之后(图中未显示)。

图12：ResNet[11] 中的快捷模块。其中最后一个CONV 层之后的ReLU 层被快捷连接。

表2：目前流行的DNN [3, 11, 45, 47, 48] 模型，其中正确率都基于在ImageNet [10] 中TOP-5 误差。

四、DNN 开发资源

DNN 得以快速发展的一个关键因素是研究社区与产业界使得一系列开发资源变得可用。这些资源对DNN 加速器的开发也很关键，提供工作负载的特性、在模型复杂性和准确率上促进权衡性的探索。这一章节将描述了对此领域感兴趣的人能快速上手的一些资源。

1. 框架(Frameworks)

为了DNN 开发的简便以及让训练网络可共享，不同的团队开发出了不同的深度学习框架。这些开源库包含了面向DNN 的软件库。Caffe 在2014 年由UC 伯克利大学开源，它支持C、C++、Python 和MATLAB。TensorFlow 由谷歌团队2015 年开源，支持C++和Python，也支持多CPU 和GPU。它要比Caffe 更灵活，计算表达是数据流图到张量管理(多维度阵列)。另一个流行的框架是Torch，由Facebook 和NYU 开发，它支持C、C++和Lua。当然，还有其他的一些框架，比如Theano、MXNet、CNTK，这在[57] 中有所描述。

这些框架的存在不只是方便了DNN 研究人员和应用设计者，它们对编程高性能或更高效的DNN 计算引擎也是无价的。例如，大部分框架可以使用英伟达的cuDNN 库在GPU 上进行快速运算。这一加速对框架的使用者而言是很明显的。类似地，硬件加速器这种如此易懂的结合也能在Eyeriss 这样的芯片上获得[58]。

最终，这些框架对硬件研究人员来说也是无价的资源(工作负载)，它们可被用于设计不同工作负载的实验、性能分析(profiling)不同的工作负载、探索硬件与软件之间的权衡。

2. 模型(Model)

3. 流行的分类数据集

在许多公开的数据集中有许多人工智能任务可用来评估DNN 的准确率。公开数据集对对比不同方法的准确率而言非常的重要。最简单也最常见的任务是图像分类。图像分类涉及到在给定的完整图像中，选择出N 类物体中的1 类，它不需要进行定位于检测。

其中包括：

?MNIST：它包含手写数字的28×28 像素的灰度图像，里面有10 大类别(10 个数字)、6 万张训练图像和1 万张测试图像。?CIFAR：这是一个包含不同物体32×32 像素的彩色图像数据集。

?ImageNet：它包含的图像是256×256 彩色像素，有1000 多类。

图13：MNIST 数据集(10 类、6 万张训练图像、1 万张测试图像)[59] vs. ImageNet 数据集(1000 多类、130 万张训练图像、

10 万张测试图像)[10]

4. 用于其它任务的数据集

五、用于DNN 处理的硬件

在这部分里，我们将讨论在不同的硬件平台中进行高效处理而不降低准确性的策略(所有在本节中的方法都要输出完全相同的结果)。

?对于CPU 与GPU 这样的时间敏感架构，我们将讨论在它们的运行中如何减少乘法次数以增加吞吐量。

?对于加速器这样的空间敏感架构，我们讨论数据流如何能低成本地从存储器中被调用，以减少能耗。

图14：高度并行的计算范式

1. 在CPU 和GPU 平台上加速核(kernel)计算

图15：映射到全连接层(a)的矩阵乘法，当从单个输入特征图计算单个输出特征图时，使用矩阵向量乘法。(b)当从N 个输入特

征图计算N 个输出特征图时，使用矩阵乘法。

图16：映射到卷积层的矩阵乘法(a)将卷积映射到Toeplitz 矩阵。(b)将Toeplitz 矩阵扩展到多个通道和滤波器。

图17：用于加速DNN 的FFT。

2. 为加速器设计的Energy-Efficient Dataflow

图18：每个MAC 的存取

图19：存储层级和数据移动能量

图20：DNN 中的数据复用机会

图22：DNN 的数据流。(a) 权重固定(WS)，(b) 输出固定(OS)，(c) 没有局部复用(NLR)

六、近场数据处理

在上一章节中，我们强调了数据流通主导了能源的消耗。虽然空间架构尽可能将储存器安放在离计算很近的位置(如放入PE)，但同时我们也在努力将高密度存储器安置在近计算的位置，或者直接将计算集成到存储器本身中。在嵌入式系统中，我们还努力将计算放入到传感器(最先收集数据的元件)中。在本论文的这个章节中，我们将讨论如何通过使用混合信号回路(mixed-signal circuit)设计和高级存储技术将处理尽可能放置在离数据近的地方以减少数据流通。

A. DRAM

B. SRAM

C. 非易失性电阻式存储(Non-volatile Resistive Memories)

D. 传感器

图33。通过(a) SRAM bit-cell 和(b) 非易失性电阻式存储进行模拟计算

七、DNN 模型和硬件的联合设计(CO-DESIGN)

对DNN 模型和DNN 硬件进行联合设计可以为处理效率带来进一步的提升。在传统上，DNN 模型的设计目标是最大化准确度，而不会考虑太多实现的复杂性。但是，这可能会使得设计很难实现。DNN 模型和硬件和联合设计可以有效地联合最大化准确度

和吞吐量，同时最小化能耗和成本，这能增加采用的可能性。这种方法已经在其它重要的且广泛应用的多媒体应用(比如视频压缩)中得到了证明。之前的时候，视频标准大多关注算法开发。从MPEG-2 到H.264/AVC，在编码效率上实现了2 倍的提升，而解码器复杂性却增加了4 倍[110]。最近，最新的视频编码标准H.265/HEVC [111] 使用了算法和硬件的联合设计;结果其相对于H.264/AVC 在编码效率上实现了又2 倍的提升[112]，而解码器复杂性也只增加了2 倍。在这一节，我们将重点介绍几个DNN 模型和硬件联合设计方面的研究。注意和第V 节不同，这一节所提出的技术可能会改变准确度;尽管其目标是在最小化准确度改变的同时显着减少能耗并提高吞吐量。

这些方法可以大致分为以下几类：

?降低运算和操作数的精度。这包括将浮点数改为定点数、减少位宽、移到对数域和权重共享。

?降低运算的数量和模型的大小。其中的技术包括：压缩、剪枝和设计紧凑的网络架构。

表3：为AlexNet 降低数值精度的方法。这里的准确度是在ImageNet 上测得的top-5 error。* 表示不适用于第一层和/或最后的

层

八、用于DNN 评估和比较的基准指标

1. DNN 模型的指标

为了评估一个给定模型的属性，我们应该考虑以下元素：

?在ImageNet 这样的数据集上的top-5 error 方面的模型准确度。另外，使用了哪种类型的数据增强(比如，多次裁剪、集成模型)。

?对于该DNN 模型，要么应该使用众所周知的模型，要么就应该报告模型的参数，包括层的数量、滤波器大小、滤波器的数量和通道的数量。

?权重的数量会影响该模型的存储需求，应该报告。如果可能，也应该报告非零权重的数量，因为这能反映理论上的最小存储需求。

?需要执行的MAC 的量应被报告，因为其或多或少指示了给定DNN 的运算量和吞吐量。如果可能，也应该报告非零MAC 的量，因为这能反映理论上的最小计算需求。

表4：流行的DNN 指标。稀疏性(sparsity)根据报告的非零(NZ)权重和MAC 得到

2. DNN 硬件的指标

为了测量DNN 硬件的有效性，我们要考虑这些指标：

?硬件设计的能量效率，包括每非零MAC(非零权重和激活)的能量和MAC 的位宽(bitwidth)。

?片外(off-chip)带宽(如，DRAM 带宽)应该报告的包括片外的每非零MAC(非零权重和激活)的访问和MAC 的位宽

?区域效率(area efficiency)衡量的是芯片的成本，要考虑内存(寄存器或SRAM)的尺寸和类型和控制逻辑的量。

?吞吐量(throughput)应该基于多种DNN 的运行时间来报告，以考虑映射和内存带宽的影响，这能提供比峰值吞吐量更有用和信息更丰富的指标。

表5：Eyeriss 基准指标示例

【本文是51CTO专栏机构机器之心的原创译文，微信公众号“机器之心( id: almosthuman2014)”】

戳这里，看该作者更多好文

【编辑推荐】

1.蚂蚁金服生物识别技术负责人陈继东：数据驱动人工智能引发行业变革

2.十年后，你的工作会被人工智能取代吗？

3.HanSight瀚思万晓川：国内安全厂商应推动安全人工智能化

4.在癌症治疗这件事上，要不要相信人工智能？

5.百度首席科学家吴恩达宣布离职发公开信表达对人工智能信心十足

(完整版)深度神经网络及目标检测学习笔记(2)

深度神经网络及目标检测学习笔记 https://youtu.be/MPU2HistivI 上面是一段实时目标识别的演示，计算机在视频流上标注出物体的类别，包括人、汽车、自行车、狗、背包、领带、椅子等。今天的计算机视觉技术已经可以在图片、视频中识别出大量类别的物体，甚至可以初步理解图片或者视频中的内容，在这方面，人工智能已经达到了3岁儿童的智力水平。这是一个很了不起的成就，毕竟人工智能用了几十年的时间，就走完了人类几十万年的进化之路，并且还在加速发展。道路总是曲折的，也是有迹可循的。在尝试了其它方法之后，计算机视觉在仿生学里找到了正确的道路（至少目前看是正确的）。通过研究人类的视觉原理，计算机利用深度神经网络（Deep Neural Network，NN）实现了对图片的识别，包括文字识别、物体分类、图像理解等。在这个过程中，神经元和神经网络模型、大数据技术的发展，以及处理器（尤其是GPU）强大的算力，给人工智能技术的发展提供了很大的支持。本文是一篇学习笔记，以深度优先的思路，记录了对深度学习（Deep Learning）的简单梳理，主要针对计算机视觉应用领域。一、神经网络 1.1 神经元和神经网络神经元是生物学概念，用数学描述就是：对多个输入进行加权求和，并经过激活函数进行非线性输出。由多个神经元作为输入节点，则构成了简单的单层神经网络（感知器），可以进行线性分类。两层神经网络则可以完成复杂一些的工作，比如解决异或问题，而且具有非常好的非线性分类效果。而多层（两层以上）神经网络，就是所谓的深度神经网络。神经网络的工作原理就是神经元的计算，一层一层的加权求和、激活，最终输出结果。深度神经网络中的参数太多（可达亿级），必须靠大量数据的训练来“这是苹在父母一遍遍的重复中学习训练的过程就好像是刚出生的婴儿，设置。．果”、“那是汽车”。有人说，人工智能很傻嘛，到现在还不如三岁小孩。其实可以换个角度想：刚出生婴儿就好像是一个裸机，这是经过几十万年的进化才形成的，然后经过几年的学习，就会认识图片和文字了；而深度学习这个“裸机”用了几十年就被设计出来，并且经过几个小时的“学习”，就可以达到这个水平了。 1.2 BP算法神经网络的训练就是它的参数不断变化收敛的过程。像父母教婴儿识图认字一样，给神经网络看一张图并告诉它这是苹果，它就把所有参数做一些调整，使得它的计算结果比之前更接近“苹果”这个结果。经过上百万张图片的训练，它就可以达到和人差不多的识别能力，可以认出一定种类的物体。这个过程是通过反向传播（Back Propagation，BP）算法来实现的。建议仔细看一下BP算法的计算原理，以及跟踪一个简单的神经网络来体会训练的过程。

深度学习系列(7)：神经网络的优化方法

机器?学习中，梯度下降法常?用来对相应的算法进?行行训练。常?用的梯度下降法包含三种不不同的形式，分别是BGD 、SGD 和MBGD ，它们的不不同之处在于我们在对?目标函数进?行行梯度更更新时所使?用的样本量量的多少。以线性回归算法来对三种梯度下降法进?行行?比较。 ?一般线性回归函数的假设函数为：（即有n 个特征）对应的损失函数为下图即为?一个?二维参数和组对应的损失函数可视化图像：批量量梯度下降法（Batch Gradient Descent ，简称BGD ）是梯度下降法最原始的形式，它的具体思路路是在更更新每?一参数时都使?用所有的样本来进?行行更更新，其数学形式如下：深度学习系列列（7）：神经?网络的优化?方法?一、Gradient Descent [Robbins and Monro, 1951,Kiefer et al., 1952] = h θ∑j =0n θj x j L (θ)=12m ∑i =1 m (h ()?)x i y i 2θ0θ11.1 BGD （Batch Gradient Descent ）

还是以上?面?小球的例例?子来看，momentum ?方式下?小球完全是盲?目被动的?方式滚下的。这样有个缺三、NAG （Nesterov accelerated gradient ）[Nesterov, 1983]

点就是在邻近最优点附近是控制不不住速度的。我们希望?小球可以预判后?面的“地形”，要是后?面地形还是很陡峭，那就继续坚定不不移地?大胆?走下去，不不然的话就减缓速度。当然，?小球?自?己也不不知道真正要?走到哪?里里，这?里里以作为下?一个位置的近似，将动量量的公式更更改为：相?比于动量量?方式考虑的是上?一时刻的动能和当前点的梯度，?而NAG 考虑的是上?一时刻的梯度和近似下?一点的梯度，这使得它可以先往前探探路路，然后慎重前进。 Hinton 的slides 是这样给出的：其中两个blue vectors 分别理理解为梯度和动能，两个向量量和即为momentum ?方式的作?用结果。?而靠左边的brown vector 是动能，可以看出它那条blue vector 是平?行行的，但它预测了了下?一阶段的梯度是red vector ，因此向量量和就是green vector ，即NAG ?方式的作?用结果。 momentum 项和nesterov 项都是为了了使梯度更更新更更加灵活，对不不同情况有针对性。但是，?人?工设置?一些学习率总还是有些?生硬，接下来介绍?几种?自适应学习率的?方法训练深度?网络的时候，可以让学习率随着时间退?火。因为如果学习率很?高，系统的动能就过?大，参数向量量就会?无规律律地变动，?无法稳定到损失函数更更深更更窄的部分去。对学习率衰减的时机把握很有技巧：如果慢慢减?小，可能在很?长时间内只能浪费计算资源然后看着它混沌地跳动，实际进展很少；但如果快速地减少，系统可能过快地失去能量量，不不能到达原本可以到达的最好位置。通常，实现学习率退?火有三种?方式： θ?γv t ?1 =γ+ηJ (θ?γ) v t v t ?1?θv t ?1θ=θ?v t 四、学习率退?火

零基础入门深度学习(5) - 循环神经网络

[关闭] 零基础入门深度学习(5) - 循环神经网络机器学习深度学习入门无论即将到来的是大数据时代还是人工智能时代，亦或是传统行业使用人工智能在云上处理大数据的时代，作为一个有理想有追求的程序员，不懂深度学习（Deep Learning）这个超热的技术，会不会感觉马上就out了？现在救命稻草来了，《零基础入门深度学习》系列文章旨在讲帮助爱编程的你从零基础达到入门级水平。零基础意味着你不需要太多的数学知识，只要会写程序就行了，没错，这是专门为程序员写的文章。虽然文中会有很多公式你也许看不懂，但同时也会有更多的代码，程序员的你一定能看懂的（我周围是一群狂热的Clean Code程序员，所以我写的代码也不会很差）。文章列表零基础入门深度学习(1) - 感知器零基础入门深度学习(2) - 线性单元和梯度下降零基础入门深度学习(3) - 神经网络和反向传播算法零基础入门深度学习(4) - 卷积神经网络零基础入门深度学习(5) - 循环神经网络零基础入门深度学习(6) - 长短时记忆网络(LSTM) 零基础入门深度学习(7) - 递归神经网络往期回顾在前面的文章系列文章中，我们介绍了全连接神经网络和卷积神经网络，以及它们的训练和使用。他们都只能单独的取处理一个个的输入，前一个输入和后一个输入是完全没有关系的。但是，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。比如，当我们在理解一句话意思时，孤立的理解这句话的每个词是不够的，我们需要处理这些词连接起来的整个序列；当我们处理视频的时候，我们也不能只单独的去分析每一帧，而要分析这些帧连接起来的整个序列。这时，就需要用到深度学习领域中另一类非常重要神经网络：循环神经网络(Recurrent Neural Network)。RNN种类很多，也比较绕脑子。不过读者不用担心，本文将一如既往的对复杂的东西剥茧抽丝，帮助您理解RNNs以及它的训练算法，并动手实现一个循环神经网络。语言模型 RNN是在自然语言处理领域中最先被用起来的，比如，RNN可以为语言模型来建模。那么，什么是语言模型呢？我们可以和电脑玩一个游戏，我们写出一个句子前面的一些词，然后，让电脑帮我们写下接下来的一个词。比如下面这句：我昨天上学迟到了，老师批评了____。我们给电脑展示了这句话前面这些词，然后，让电脑写下接下来的一个词。在这个例子中，接下来的这个词最有可能是『我』，而不太可能是『小明』，甚至是『吃饭』。语言模型就是这样的东西：给定一个一句话前面的部分，预测接下来最有可能的一个词是什么。语言模型是对一种语言的特征进行建模，它有很多很多用处。比如在语音转文本(STT)的应用中，声学模型输出的结果，往往是若干个可能的候选词，这时候就需要语言模型来从这些候选词中选择一个最可能的。当然，它同样也可以用在图像到文本的识别中(OCR)。使用RNN之前，语言模型主要是采用N-Gram。N可以是一个自然数，比如2或者3。它的含义是，假设一个词出现的概率只与前面N个词相关。我

(完整版)深度神经网络全面概述

深度神经网络全面概述从基本概念到实际模型和硬件基础深度神经网络(DNN)所代表的人工智能技术被认为是这一次技术变革的基石(之一)。近日，由IEEE Fellow Joel Emer 领导的一个团队发布了一篇题为《深度神经网络的有效处理：教程和调研(Efficient Processing of Deep Neural Networks: A Tutorial and Survey)》的综述论文，从算法、模型、硬件和架构等多个角度对深度神经网络进行了较为全面的梳理和总结。鉴于该论文的篇幅较长，机器之心在此文中提炼了原论文的主干和部分重要内容。目前，包括计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络(deep neural networks，DNN)。DNN 在很多人工智能任务之中表现出了当前最佳的准确度，但同时也存在着计算复杂度高的问题。因此，那些能帮助DNN 高效处理并提升效率和吞吐量，同时又无损于表现准确度或不会增加硬件成本的技术是在人工智能系统之中广泛部署DNN 的关键。论文地址：https://https://www.doczj.com/doc/3a18486841.html,/pdf/1703.09039.pdf 本文旨在提供一个关于实现DNN 的有效处理(efficient processing)的目标的最新进展的全面性教程和调查。特别地，本文还给出了一个DNN 综述——讨论了支持DNN 的多种平台和架构，并强调了最新的有效处理的技术的关键趋势，这些技术或者只是通过改善硬件设计或者同时改善硬件设计和网络算法以降低DNN 计算成本。本文也会对帮助研究者和从业者快速上手DNN 设计的开发资源做一个总结，并凸显重要的基准指标和设计考量以评估数量快速增长的DNN 硬件设计，还包括学界和产业界共同推荐的算法联合设计。读者将从本文中了解到以下概念：理解DNN 的关键设计考量;通过基准和对比指标评估不同的DNN 硬件实现;理解不同架构和平台之间的权衡;评估不同DNN 有效处理技术的设计有效性;理解最新的实现趋势和机遇。一、导语深度神经网络(DNN)目前是许多人工智能应用的基础[1]。由于DNN 在语音识别[2] 和图像识别[3] 上的突破性应用，使用DNN 的应用量有了爆炸性的增长。这些DNN 被部署到了从自动驾驶汽车[4]、癌症检测[5] 到复杂游戏[6] 等各种应用中。在这许多领域中，DNN 能够超越人类的准确率。而DNN 的出众表现源于它能使用统计学习方法从原始感官数据中提取高层特征，在大量的数据中获得输入空间的有效表征。这与之前使用手动提取特征或专家设计规则的方法不同。然而DNN 获得出众准确率的代价是高计算复杂性成本。虽然通用计算引擎(尤其是GPU)，已经成为许多DNN 处理的砥柱，但提供对DNN 计算更专门化的加速方法也越来越热门。本文的目标是提供对DNN、理解DNN 行为的各种工具、有效加速计算的各项技术的概述。该论文的结构如下：

神经网络及深度学习

可用于自动驾驶的神经网络及深度学习高级辅助驾驶系统(ADAS)可提供解决方案，用以满足驾乘人员对道路安全及出行体验的更高要求。诸如车道偏离警告、自动刹车及泊车辅助等系统广泛应用于当前的车型，甚至是功能更为强大的车道保持、塞车辅助及自适应巡航控制等系统的配套使用也让未来的全自动驾驶车辆成为现实。作者：来源：电子产品世界|2017-02-27 13:55 收藏分享高级辅助驾驶系统(ADAS)可提供解决方案，用以满足驾乘人员对道路安全及出行体验的更高要求。诸如车道偏离警告、自动刹车及泊车辅助等系统广泛应用于当前的车型，甚至是功能更为强大的车道保持、塞车辅助及自适应巡航控制等系统的配套使用也让未来的全自动驾驶车辆成为现实。如今，车辆的很多系统使用的都是机器视觉。机器视觉采用传统信号处理技术来检测识别物体。对于正热衷于进一步提高拓展ADAS功能的汽车制造业而言，深度学习神经网络开辟了令人兴奋的研究途径。为了实现从诸如高速公路全程自动驾驶仪的短时辅助模式到专职无人驾驶旅行的自动驾驶，汽车制造业一直在寻求让响应速度更快、识别准确度更高的方法，而深度学习技术无疑为其指明了道路。以知名品牌为首的汽车制造业正在深度学习神经网络技术上进行投资，并向先进的计算企业、硅谷等技术引擎及学术界看齐。在中国，百度一直在此技术上保持领先。百度计划在2019 年将全自动汽车投入商用，并加大全自动汽车的批量生产力度，使其在2021 年可广泛投入使用。汽车制造业及技术领军者之间的密切合作是嵌入式系统神经网络发展的催化剂。这类神经网络需要满足汽车应用环境对系统大小、成本及功耗的要求。 1轻型嵌入式神经网络卷积式神经网络(CNN)的应用可分为三个阶段：训练、转化及CNN在生产就绪解决方案中的执行。要想获得一个高性价比、针对大规模车辆应用的高效结果，必须在每阶段使用最为有利的系统。训练往往在线下通过基于CPU的系统、图形处理器(GPU)或现场可编程门阵列(FPGA)来完成。由于计算功能强大且设计人员对其很熟悉，这些是用于神经网络训练的最为理想的系统。在训练阶段，开发商利用诸如Caffe(Convolution Architecture For Feature Extraction，卷积神经网络架构)等的框架对CNN 进行训练及优化。参考图像数据库用于确定网络中神经元的最佳权重参数。训练结束即可采用传统方法在CPU、GPU 或FPGA上生成网络及原型，尤其是执行浮点运算以确保最高的精确度。作为一种车载使用解决方案，这种方法有一些明显的缺点。运算效率低及成本高使其无法在大批量量产系统中使用。 CEVA已经推出了另一种解决方案。这种解决方案可降低浮点运算的工作负荷，并在汽车应用可接受的功耗水平上获得实时的处理性能表现。随着全自动驾驶所需的计算技术的进一步发展，对关键功能进行加速的策略才能保证这些系统得到广泛应用。利用被称为CDNN的框架对网络生成策略进行改进。经过改进的策略采用在高功耗浮点计算平台上(利用诸如Caffe的传统网络生成器)开发的受训网络结构和权重，并将其转化为基于定点运算，结构紧凑的轻型的定制网络模型。接下来，此模型会在一个基于专门优化的成像和视觉DSP芯片的低功耗嵌入式平台上运行。图1显示了轻型嵌入式神经网络的生成

吴恩达深度学习课程：神经网络和深度学习

吴恩达深度学习课程：神经网络和深度学习[中英文字幕+ppt课件] 内容简介吴恩达（Andrew Ng）相信大家都不陌生了。2017年8 月8 日，吴恩达在他自己创办的在线教育平台Coursera 上线了他的人工智能专项课程（Deep Learning Specialization）。此课程广受好评，通过视频讲解、作业与测验等让更多的人对人工智能有了了解与启蒙，国外媒体报道称：吴恩达这次深度学习课程是迄今为止，最全面、系统和容易获取的深度学习课程，堪称普通人的人工智能第一课。关注微信公众号datayx 然后回复“深度学习”即可获取。第一周深度学习概论：学习驱动神经网络兴起的主要技术趋势，了解现今深度学习在哪里应用、如何应用。 1.1 欢迎来到深度学习工程师微专业 1.2 什么是神经网络？ 1.3 用神经网络进行监督学习 1.4 为什么深度学习会兴起？ 1.5 关于这门课

1.6 课程资源第二周神经网络基础：学习如何用神经网络的思维模式提出机器学习问题、如何使用向量化加速你的模型。 2.1 二分分类 2.2 logistic 回归 2.3 logistic 回归损失函数 2.4 梯度下降法 2.5 导数 2.6 更多导数的例子 2.7 计算图 2.8 计算图的导数计算 2.9 logistic 回归中的梯度下降法 2.10 m 个样本的梯度下降 2.11 向量化 2.12 向量化的更多例子 2.13 向量化logistic 回归 2.14 向量化logistic 回归的梯度输出 2.15 Python 中的广播 2.16 关于python / numpy 向量的说明 2.17 Jupyter / Ipython 笔记本的快速指南 2.18 （选修）logistic 损失函数的解释第三周浅层神经网络：

深度神经网络及目标检测学习笔记

深度神经网络及目标检测学习笔记ｈｔｔps://youtu.bｅ/MPU2ＨistivI 上面是一段实时目标识别的演示，计算机在视频流上标注出物体的类别,包括人、汽车、自行车、狗、背包、领带、椅子等。今天的计算机视觉技术已经可以在图片、视频中识别出大量类别的物体，甚至可以初步理解图片或者视频中的内容，在这方面,人工智能已经达到了３岁儿童的智力水平。这是一个很了不起的成就,毕竟人工智能用了几十年的时间，就走完了人类几十万年的进化之路,并且还在加速发展。道路总是曲折的，也是有迹可循的。在尝试了其它方法之后，计算机视觉在仿生学里找到了正确的道路(至少目前看是正确的)。通过研究人类的视觉原理,计算机利用深度神经网络(ＤｅeｐＮｅuｒal Nｅtwork，NＮ)实现了对图片的识别,包括文字识别、物体分类、图像理解等。在这个过程中,神经元和神经网络模型、大数据技术的发展，以及处理器(尤其是GPU）强大的算力，给人工智能技术的发展提供了很大的支持。本文是一篇学习笔记,以深度优先的思路,记录了对深度学习(Deｅp Learning）的简单梳理,主要针对计算机视觉应用领域。一、神经网络１．1 神经元和神经网络神经元是生物学概念,用数学描述就是:对多个输入进行加权求和,并经过激活函数进行非线性输出。由多个神经元作为输入节点,则构成了简单的单层神经网络（感知器),可以进行线性分类。两层神经网络则可以完成复杂一些的工作,比如解决异或问题，而且具有非常好的非线性分类效果。而多层(两层以上)神经网络,就是所谓的深度神经网络。神经网络的工作原理就是神经元的计算，一层一层的加权求和、激活，最终输出结果。深度神经网络中的参数太多（可达亿级），必须靠大量数据的训练来设置。训练的过程就好像是刚出生的婴儿，在父母一遍遍的重复中学习“这是苹

BP神经网络及深度学习研究-综述(最新整理)

BP神经网络及深度学习研究摘要：人工神经网络是一门交叉性学科，已广泛于医学、生物学、生理学、哲学、信息学、计算机科学、认知学等多学科交叉技术领域，并取得了重要成果。BP（Back Propagation）神经网络是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。本文将主要介绍神经网络结构，重点研究BP神经网络原理、BP神经网络算法分析及改进和深度学习的研究。关键词：BP神经网络、算法分析、应用 1 引言人工神经网络（Artificial Neural Network，即ANN ），作为对人脑最简单的一种抽象和模拟，是人们模仿人的大脑神经系统信息处理功能的一个智能化系统，是20世纪80 年代以来人工智能领域兴起的研究热点。人工神经网络以数学和物理方法以及信息处理的角度对人脑神经网络进行抽象，并建立某种简化模型，旨在模仿人脑结构及其功能的信息处理系统。人工神经网络最有吸引力的特点就是它的学习能力。因此从20世纪40年代人工神经网络萌芽开始，历经两个高潮期及一个反思期至1991年后进入再认识与应用研究期，涌现出无数的相关研究理论及成果，包括理论研究及应用研究。最富有成果的研究工作是多层网络BP算法，Hopfield网络模型，自适应共振理论，自组织特征映射理论等。因为其应用价值，该研究呈愈演愈烈的趋势，学者们在多领域中应用[1]人工神经网络模型对问题进行研究优化解决。人工神经网络是由多个神经元连接构成，因此欲建立人工神经网络模型必先建立人工神经元模型，再根据神经元的连接方式及控制方式不同建立不同类型的人工神经网络模型。现在分别介绍人工神经元模型及人工神经网络模型。 1.1 人工神经元模型仿生学在科技发展中起着重要作用，人工神经元模型的建立来源于生物神经元结构的仿生模拟，用来模拟人工神经网络[2]。人们提出的神经元模型有很多，其中最早提出并且影响较大的是1943年心理学家McCulloch和数学家W. Pitts 在分析总结神经元基本特性的基础上首先提出的MP模型。该模型经过不断改进后，形成现在广泛应用的BP神经元模型。人工神经元模型是由人量处理单元厂泛互连而成的网络，是人脑的抽象、简化、模拟，反映人脑的基本特性。一般来说，作为人工神经元模型应具备三个要素： (1)具有一组突触或连接，常用表示神经元i和神经元j之间的连接强度。 w ij (2)具有反映生物神经元时空整合功能的输入信号累加器。

深度神经网络知识蒸馏综述

Computer Science and Application 计算机科学与应用, 2020, 10(9), 1625-1630 Published Online September 2020 in Hans. https://www.doczj.com/doc/3a18486841.html,/journal/csa https://https://www.doczj.com/doc/3a18486841.html,/10.12677/csa.2020.109171 深度神经网络知识蒸馏综述韩宇中国公安部第一研究所，北京收稿日期：2020年9月3日；录用日期：2020年9月17日；发布日期：2020年9月24日摘要深度神经网络在计算机视觉、自然语言处理、语音识别等多个领域取得了巨大成功，但是随着网络结构的复杂化，神经网络模型需要消耗大量的计算资源和存储空间，严重制约了深度神经网络在资源有限的应用环境和实时在线处理的应用上的发展。因此，需要在尽量不损失模型性能的前提下，对深度神经网络进行压缩。本文介绍了基于知识蒸馏的神经网络模型压缩方法，对深度神经网络知识蒸馏领域的相关代表性工作进行了详细的梳理与总结，并对知识蒸馏未来发展趋势进行展望。关键词神经网络，深度学习，知识蒸馏 A Review of Knowledge Distillation in Deep Neural Networks Yu Han The First Research Institute, The Ministry of Public Security of PRC, Beijing Received: Sep. 3rd, 2020; accepted: Sep. 17th, 2020; published: Sep. 24th, 2020 Abstract Deep neural networks have achieved great success in computer vision, natural language processing, speech recognition and other fields. However, with the complexity of network structure, the neural network model needs to consume a lot of computing resources and storage space, which seriously restricts the development of deep neural network in the resource limited application environment and real-time online processing application. Therefore, it is necessary to compress the deep neural network without losing the performance of the model as much as possible. This article introduces

神经网络11大常见陷阱及应对方法

深度学习的这些坑你都遇到过吗？神经网络11 大常见陷阱及应对方法【新智元导读】如果你的神经网络不工作，该怎么办？本文作者列举了搭建神经网络时可能遇到的11个常见问题，包括预处理数据、正则化、学习率、激活函数、网络权重设置等，并提供解决方法和原因解释，是深度学习实践的有用资料。如果你的神经网络不工作，该怎么办？作者在这里列出了建神经网络时所有可能做错的事情，以及他自己的解决经验。 1.忘记规范化数据 2.忘记检查结果 3.忘记预处理数据 4.忘记使用正则化 5.使用的batch太大 6.使用了不正确的学习率 7.在最后层使用了错误的激活函数 8.你的网络包含了Bad Gradients 9.初始化网络权重不正确 10.你使用的网络太深了 11.使用隐藏单元的数量不对忘记规范化数据了

问题描述在使用神经网络时，思考如何正确地规范化数据是非常重要的。这是一个无法改变的步骤——假如这一步骤没有小心、正确地做，你的网络就几乎不可能工作。由于这个步骤非常重要，在深度学习社区中也是众所周知的，所以它很少在论文中被提及，因此初学者常常在这一步出错。怎样解决？一般来说，规范化（normalization）的意思是：将数据减去均值，再除以其方差。通常这是对每个输入和输出特征单独做的，但你可能经常会希望对特征组做或特别主翼处理某些特征的规范化。为什么？我们需要对数据进行规范化的主要原因是大部分的神经网络流程假设输入和输出数据都以一个约是1的标准差和约是0的均值分布。这些假设在深度学习文献中到处都是，从权重初始化、激活函数到训练网络的优化算法。还需要注意未训练的神经网络通常会输出约在-1到1范围之间的值。如果你希望输出其他范围的值（例如RBG图像以0-255范围的字节存储）会出现一些问题。在开始训练时，网络会非常不稳定，因为比如说预期值是255，网络产生的值是-1或1——这会被大多数用于训练神经网络的优化算法认为是严重的错误。这会产生过大的梯度，可能导致梯度爆炸。如果不爆炸，那么训练的前几个阶段就是浪费的，因为网络首先学习的是将输出值缩小到大致是预期的范围。如果规范化了数据（在这种情况下，你可以简单地将数值除以128再减去1），就不会发生这些问题。一般来说，神经网络中特征的规模也决定了其重要性。如果输出中的有一个特征规模很大，那么与其他特征相比它会产生更大的错误。类似地，输入中的大规模特征将主导网络并导致下游发生更大的变化。因此，使用神经网络库的自动规范化往往是不够的，这些神经网络库会在每个特征的基础上盲目地减去平均值并除以方差。你可能有一个输入特征，通常范围在0.0到0.001之间——这个特征的范围如此之小，因为它是一个不重要的特征（在这种情况下，你可能不想重新scale），或者因为与其他特征相比它有一些小的单元（在这种情

深度学习与神经网络

CDA数据分析研究院出品，转载需授权深度学习是机器学习的一个子领域，研究的算法灵感来自于大脑的结构和功能，称为人工神经网络。如果你现在刚刚开始进入深度学习领域，或者你曾经有过一些神经网络的经验，你可能会感到困惑。因为我知道我刚开始的时候有很多的困惑，我的许多同事和朋友也是这样。因为他们在20世纪90年代和21世纪初就已经学习和使用神经网络了。该领域的领导者和专家对深度学习的观点都有自己的见解，这些具体而细微的观点为深度学习的内容提供了很多依据。在这篇文章中，您将通过听取该领域的一系列专家和领导者的意见，来了解什么是深度学习以及它的内容。来让我们一探究竟吧。深度学习是一种大型的神经网络 Coursera的Andrew Ng和百度研究的首席科学家正式创立了Google Brain，最终导致了大量Google服务中的深度学习技术的产品化。他已经说了很多关于深度学习的内容并且也写了很多，这是一个很好的开始。在深度学习的早期讨论中，Andrew描述了传统人工神经网络背景下的深度学习。在2013年的题为“ 深度学习，自学习和无监督特征学习”的演讲中“他将深度学习的理念描述为：这是我在大脑中模拟的对深度学习的希望： - 使学习算法更好，更容易使用。 - 在机器学习和人工智能方面取得革命性进展。我相信这是我们迈向真正人工智能的最好机会

后来他的评论变得更加细致入微了。 Andrew认为的深度学习的核心是我们现在拥有足够快的计算机和足够多的数据来实际训练大型神经网络。在2015年ExtractConf大会上，当他的题目“科学家应该了解深度学习的数据”讨论到为什么现在是深度学习起飞的时候，他评论道：我们现在拥有的非常大的神经网络......以及我们可以访问的大量数据他还评论了一个重要的观点，那就是一切都与规模有关。当我们构建更大的神经网络并用越来越多的数据训练它们时，它们的性能会不断提高。这通常与其他在性能上达到稳定水平的机器学习技术不同。对于大多数旧时代的学习算法来说......性能将达到稳定水平。......深度学习......是第一类算法......是可以扩展的。...当你给它们提供更多的数据时，它的性能会不断提高他在幻灯片中提供了一个漂亮的卡通片：最后，他清楚地指出，我们在实践中看到的深度学习的好处来自有监督的学习。从2015年的ExtractConf演讲中，他评论道：如今的深度学习几乎所有价值都是通过有监督的学习或从有标记的数据中学习在2014年的早些时候，在接受斯坦福大学的题为“深度学习”的演讲时，他也发出了类似的评论。深度学习疯狂发展的一个原因是它非常擅长监督学习

深度神经网络

1. 自联想神经网络与深度网络自联想神经网络是很古老的神经网络模型，简单的说，它就是三层BP网络，只不过它的输出等于输入。很多时候我们并不要求输出精确的等于输入，而是允许一定的误差存在。所以，我们说，输出是对输入的一种重构。其网络结构可以很简单的表示如下：如果我们在上述网络中不使用sigmoid函数，而使用线性函数，这就是PCA模型。中间网络节点个数就是PCA模型中的主分量个数。不用担心学习算法会收敛到局部最优，因为线性BP网络有唯一的极小值。

在深度学习的术语中，上述结构被称作自编码神经网络。从历史的角度看，自编码神经网络是几十年前的事情，没有什么新奇的地方。既然自联想神经网络能够实现对输入数据的重构，如果这个网络结构已经训练好了，那么其中间层，就可以看过是对原始输入数据的某种特征表示。如果我们把它的第三层去掉，这样就是一个两层的网络。如果，我们把这个学习到特征再用同样的方法创建一个自联想的三层BP网络，如上图所示。换言之，第二次创建的三层自联想网络的输入是上一个网络的中间层的输出。用同样的训练算法，对第二个自联想网络进行学习。那么，第二个自联想网络的中间层是对其输入的某种特征表示。如果我们按照这种方法，依次创建很多这样的由自联想网络组成的网络结构，这就是深度神经网络，如下图所示：

注意，上图中组成深度网络的最后一层是级联了一个softmax分类器。深度神经网络在每一层是对最原始输入数据在不同概念的粒度表示，也就是不同级别的特征描述。这种层叠多个自联想网络的方法，最早被Hinton想到了。从上面的描述中，可以看出，深度网络是分层训练的，包括最后一层的分类器也是单独训练的，最后一层分类器可以换成任何一种分类器，例如SVM，HMM等。上面的每一层单独训练使用的都是BP算法。相信这一思路，Hinton早就实验过了。 2. DBN神经网络模型使用BP算法单独训练每一层的时候，我们发现，必须丢掉网络的第三层，才能级联自联想神经网络。然而，有一种更好的神经网络模型，这就是受限玻尔兹曼机。使用层叠波尔兹曼机组成深度神经网络的方法，在深度学习里被称作深度信念网络DBN，这是目前非

机器学习算法汇总：人工神经网络、深度学习及其它

学习方式根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。在机器学习领域，有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法，这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。监督式学习：在监督式学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”，对手写数字识别中的“1“，”2“，”3“，”4“等。在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归（Logistic Regression）和反向传递神经网络（Back Propagation Neural Network）非监督式学习：

在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。半监督式学习：在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM.）等。强化学习：

大数据分析的深度神经网络方法

章毅四川大学计算机学院2016.03.25 重庆

提纲大数据简介大脑新皮层的神经网络结构大脑新皮层神经网络的记忆大数据分析GPU深度神经网络计算平台

大数据商业应用诞生全世界兴起大数据分布式存储与并行计Google Brain 计划，激起大规模神经网络在深度神经网络在语音大数据、图像大数据领域接连取得巨大突破 G. E. Hinton 教授在《Science 》发表文章，基于深度神经网络的大数据分析方法在学术界和工工信部白皮书指出：大数据分析是大数据研究的重要环节，其中大数据分“大数据” 一词诞生 2000 1997 2004 2006 2011 2012 2014 2015 我国大数据产业兴起 2013 美国奥巴马政府发布了大数据计划，将大数据战略上升为美国国家意志国务院发布大数据发展行动纲要，大数据正式上升为我国国家意志

体量浩大Volume 多源异构Variety 生成快速Velocity 价值稀疏Value 大数据的基本特点大数据的目标实现大数据转换为价值大数据的概念问题：怎样实现大数据的目标？

大数据关键技术价值大数据分析是大数据转化为价值的桥梁问题：怎样设计大数据分析方法？展示平台 ?大数据知识展示 ?大数据产品数据平台 ?大数据采集，标记 ?大数据存储，管理大数据分析是大数据转换为价值的最重要的环节，否则，大数据仅仅是一堆数据而已。

?每秒信息传递和交换1000亿次，PB 级数据 ?同步处理声音、温度、气味、图像等数据 ?50亿本书的存储容量 ?每秒人眼数据量140.34GB ? 在识别、判断、预测等智能行为方面展现出十分强大的能力 ?优秀的大数据处理器人类大脑是天然的大数据处理器！进入大脑的信息被编码为某种数据，进而由大脑神经网络处理

《神经网络与深度学习综述DeepLearning15May2014

Draft:Deep Learning in Neural Networks:An Overview Technical Report IDSIA-03-14/arXiv:1404.7828(v1.5)[cs.NE] J¨u rgen Schmidhuber The Swiss AI Lab IDSIA Istituto Dalle Molle di Studi sull’Intelligenza Arti?ciale University of Lugano&SUPSI Galleria2,6928Manno-Lugano Switzerland 15May2014 Abstract In recent years,deep arti?cial neural networks(including recurrent ones)have won numerous con-tests in pattern recognition and machine learning.This historical survey compactly summarises relevant work,much of it from the previous millennium.Shallow and deep learners are distinguished by the depth of their credit assignment paths,which are chains of possibly learnable,causal links between ac- tions and effects.I review deep supervised learning(also recapitulating the history of backpropagation), unsupervised learning,reinforcement learning&evolutionary computation,and indirect search for short programs encoding deep and large networks. PDF of earlier draft(v1):http://www.idsia.ch/～juergen/DeepLearning30April2014.pdf LATEX source:http://www.idsia.ch/～juergen/DeepLearning30April2014.tex Complete BIBTEX?le:http://www.idsia.ch/～juergen/bib.bib Preface This is the draft of an invited Deep Learning(DL)overview.One of its goals is to assign credit to those who contributed to the present state of the art.I acknowledge the limitations of attempting to achieve this goal.The DL research community itself may be viewed as a continually evolving,deep network of scientists who have in?uenced each other in complex ways.Starting from recent DL results,I tried to trace back the origins of relevant ideas through the past half century and beyond,sometimes using“local search”to follow citations of citations backwards in time.Since not all DL publications properly acknowledge earlier relevant work,additional global search strategies were employed,aided by consulting numerous neural network experts.As a result,the present draft mostly consists of references(about800entries so far).Nevertheless,through an expert selection bias I may have missed important work.A related bias was surely introduced by my special familiarity with the work of my own DL research group in the past quarter-century.For these reasons,the present draft should be viewed as merely a snapshot of an ongoing credit assignment process.To help improve it,please do not hesitate to send corrections and suggestions to juergen@idsia.ch.

文档之家